集群维护
常用维护命令
启动集群
启动集群的命令格式如下:
smit clstart
在主机上执行上面的命令后,在后续的交互式界面中,需要关注并设置下面几个参数:
- Start Cluster Services on these nodes
配置需要启动集群的双机节点,可以一个节点一个节点地启动,也可以两个节点同时启动。
- Startup Cluster Information Daemon
配置是否在启动集群的同时启动clinfoES子系统,如果选择 “false”,则后面就无法使用“#/usr/sbin/cluster/clstat -a”命令查看集群的运行状态。
启动过程中,注意是否出现错误。
如果出现错误,则先停止集群,再依据错误提示进行修正。然后在继续尝试启动集群。
停止集群
停止集群的命令格式如下:
smit clstop
在主机上执行上面的命令后,在后续的交互式界面中,需要关注并设置下面几个参数:
- Stop Cluster Services on these nodes
配置需要停止集群的节点
- Select an Action on Resource Groups
停止集群的方式。
集群有三种停止模式:bring resourse groups offline(graceface)、move resourse groups(takeover)和unmanage resourse groups(forced)。各种模式的含义如下:
- bring resourse groups offline
指本节点正常停止集群,对端节点不需动作。
- move resourse groups
指本节点正常停止集群,对端节点需要接管资源。
- unmanage resourse groups
指本节点不释放任何资源强制停止HA运行,对端节点不需动作。
- bring resourse groups offline
查看集群状态
查询集群状态,分为集群进程查询和集群服务查询。其查询步骤描述如下:
- 查询节点上集群的状态是否正常。相关的命令格式如下;
lssrc -g cluster
查询结果举例如下:
图10-1 集群进程状态图 - 查询节点上集群服务是否正常,相关的命令格式如下:
#/usr/sbin/cluster/clstat -r 2 -a
上面的参数2表示每间隔2秒显示一次当前的状态信息。
查询结果举例如下:
图10-2 集群服务状态图从上图中,可以看到集群的服务IP和资源组在节点ibm31上,而且是在线状态,表明集群状态正常。
集群切换
将集群服务从一个节点切换至另外一个节点时,其操作步骤如下所示:
主机上执行命令:smit hacmp,在随后的交互式界面中依次选择下面各项:
“System Management (C-SPOC) > HACMP Resource Group and Application Management > Move a Resource Group to Another Node”
通过上面的方法即可完成集群的切换。
集群日志分析
当集群运行出现问题的时候,需要结合集群的日志进行分析定位。
HACMP集群相关的日志主要有下面三个:
- /var/hacmp/adm/cluster.log
是一个主要的HACMP log文件,有关HACMP的错误信息及相关事件的信息按照它们发生日期和时间顺序记录在这个log文件中。
- /var/hacmp/log/cspoc.log
包含由C-SPOC命令执行时所产生的信息,这个文件存在于请求C-SPOC命令的节点上。此文件是按照日期和时间顺序记录的 。
- /var/hacmp/log/hacmp.out
此文件记录configuration和startup scripts在执行中产生的输出。这些信息增补和扩展了/var/adm/cluster.log文件内的信息。一般集群发生异常时,首先可以查看此文件。
更多日志文件请查看目录:/var/hacmp/log。