系统文件修改错误导致华为服务器配置RHCS 集群及系统引导故障

发布时间:  2014-09-05 浏览次数:  1485 下载次数:  0
问题描述
A、RHCS集群添加HA LVM资源之后无法启动服务,机器反复重启
B、修改lvm配置文件之后,操作系统引导失败,只能进到维护模式
告警信息
 RHCS集群资源组(添加过HA LVM资源)启动


命令行启动资源组也失败


系统引导故障,只能到维护模式


处理过程
操作系统版本
这次版本是RHEL 6.4 X64
之前做过6.3的虚拟化和物理生产环境的RHCS,无这次问题
重新在虚拟化环境搭建6.3的RHCS,测试发现问题一样

vg、lv配置错误
把vg在两边节点分别做export、import、vgchange -a y激活去激活都正常
lv上文件系统手动挂接、卸载都正常

软件包安装不全
检查集群所需要的软件包都安装全的,跟官方安装指南做比较

资源组资源配置问题
在资源组去除掉HA LVM资源,只添加IP资源,两边激活,切换都正常
再把HA LVM资源添加进去,资源组马上disabled
命令去手动激活资源组也失败

按照上续步骤,发现问题就在HA LVM的资源问题
按照这个思路、检查RHCS 的rgmanager日志,发现如下错误信息
[lvm] * @rock1 missing from "volume_list" in lvm.conf
Aug 28 12:49:22 rgmanager start on lvm "datavg" returned 1 (generic error)
Aug 28 12:49:22 rgmanager #68: Failed to start service:testsvc; return value: 1
Aug 28 12:49:22 rgmanager Stopping service service:testsvc

问题在lvm.conf配置文件的volume_list部分的设置问题
查询网上处理办法,在HP官方论坛找到一个解决办法,把volume_list部分中括号内容置空
国内网站几乎无类似问题和办法
在无它法情况下尝试去做修改此文件。修改之后重启机器
两个节点都修改完毕,一个重启,一个暂未重启

重启之后意外发生,就是下面的系统引导故障,老的问题没解决,新的问题又出现。

系统文件系统顺坏

尝试在维护模式下进行文件系统修复的操作,无果

系统盘损坏
想到如果是系统盘损坏,想起双机另外一个节点,
重启第二个节点,到同样阶段,一样故障,
尝试在维护模式执行,pvs、vgs、lvs均无输出,vg和lv均未正常激活,再结合之前所作的修改,推测问题应该在/etc/lvm/lvm.conf的修改。

系统底层配置文件配置错误
陷入两难,不修改,RHCS资源组 HA lvm资源不正常,修改,系统起不来
有没有其他修改方式,或者修改内容有问题,再去研究该配置文件那部分的说明,发现了些眉目,那个里面是要把系统vg和lv在引导过程中过滤掉,如果留空,应该是所有vg都过滤掉,系统肯定启动不正常,加上datavg又会导致RHCS不正常,那就只加系统vg和本机主机名,两个方面的问题都规避掉。马上修改,系统启动正常!!再起RHCS资源组,也正常!

根因
RHCS集群资源组启动故障部分原因

操作系统版本
vg、lv配置错误
资源组配置错误
系统文件配置错误
软件包安装不全


系统引导故障部分原因

系统盘损坏
系统文件系统损坏
系统配置文件错误修改
建议与总结
1.问题之间会存在互相的关联,一个问题的处理可能导致另外一个问题的出现
2.别人处理问题的解决办法并一定完全准确和完全适合你的实际情况
3.对系统底层配置文件的修改一定要非常慎重,稍有不慎,可能引起很大麻烦
4.之前的经验对于后面的处理会有参考意义,但不能作为唯一的参考,可能会有偏差
5.从日志中寻找可能相关的蛛丝马迹是解决问题的有效途径

END