Win2003 VCS 集群异常不可用,卸载SFW失败

发布时间:  2014-10-11 浏览次数:  242 下载次数:  0
问题描述
环境介绍:

设备:HP DL380 G5

系统:Windows Server 2003 R2 SP2 中文版



现象:

1、  启动VCS 集群,出现错误信息,提示VCS 用户登录kerberos 身份验证错误。整个集群不能正常运行。

2、  卸载VCS,系统提示输入VCS 集群用户,但是输入用户名、密码,不能成功验证,导致VCS 集群软件不能卸载。

3、卸载SFW,校验集群节点时,告知配置错误,需要重新配置正确的集群。

告警信息
处理过程
保存配置

haconf  -dump –makero

2、    停止集群

Hastop –all –force

3、    备份配置

Hagetcf –conf

4、    停止vcs 通信

在集群的每一个节点上停止“VERITAS VCSComm startup” 服务。

5、    移除所有配置文件中的节点

进入VCS 安装路径下面,找到 conf\config\main.cf

删除所有以system + 节点 的段。

6、    验证配置文件的有效性

输入cmd,进入main.cf 的文件路径下面。

执行 hacf –verify

7、    将该main.cf 文件复制到集群每一个节点的相同VCS 配置文件的路径下面,覆盖。

8、    编辑llthosts 文件

在集群中的每一个节点上找到C:\Program Files\VERITAS\comms\llt\llthosts.txt 文件,将其中的多有节点行删除,并保存文件。

9、    启动集群通信

在集群的每一个节点上,启动“VERITAS VCSComm startup” 服务。

10、              手动让集群启动

Gabconfig –c –x

11、              检查集群状态

Hastatus –sum

一般会报知集群agent 通信失败

12、              进入控制面板,点击VERITAS 产品,进行卸载。

13、              重启原集群主机。



补充:该办法也用于集群管理密码丢失,需要废弃VCS 集群的情况。
根因
VCS 集群配置没有成功,中途重启主机,导致配置数据出错,没有写入main.conf 文件中。
在正常的操作下,VERITAS 的Cluster Server 节点是通过控制面板里面的“添加/删除程序”卸载的。
但是,当集群变为永久性的不可用状态时,那么上述办法是不能够成功的,并且面临即不能删除、又不能重装覆盖。  这时,
一、不能随便禁用VERITAS 的系统服务
二、不能进入注册表,查找VERITAS 关键值进行删除。
如果破坏正常的删除顺序或者删除重要的配置文件,那么只能是让环境更复杂,恢复可能机会更小。到最后,只有重装系统。



建议与总结

END