VCS文件服务器双机其中一台机器重启问题

发布时间:  2015-06-30 浏览次数:  446 下载次数:  1
问题描述
首先是U2980网关上面有告警,告警内容是与文件服务器断链然后迅速告警恢复。查看文件服务器,发现VCS文件服务器双机其中一台机器重启问题,首先排查了硬件故障,不是服务器的问题。然后手机suse系统日志没有发现系统问题,只是发现存在网络异常,导致vcs的gab和had模块心跳超时,然后gab强制机器重启。
告警信息
首先是U2980网关上面有告警,告警内容是与文件服务器断链然后迅速告警恢复。
处理过程

1.先使用novell提供的脚本收集suse的系统日志,提供给suse工程师,也发送给VCS工程师一下。

2.另外收集一下vcs所有节点主机vxexplorer;

收集vxexplorer方法:
1.
Download Data Collector:
https://sort.symantec.com/data_collectors
select "Command line interface" and your platfrom.
after download, upload to your server.
2. run:
#sh sort_XXX.sh
#cd sort
#./sortdc
<<< 2) Storage Foundation and HA Solutions
<<< 4) VxExplorer report
<<< 1) This system only
others options please select default ( 剩下选项选择缺省即可 ) 
3. 根据sys命令信息,系统崩溃是由双机系统的GAB模块触发的。根据当时的日志,GAB触发panic之前,eth4和eth5网卡异常。然后收集atop日志(/var/log/atop/atop_20150511),以检查一下系统panic之前的系统运行情况。Atop并不是suse的软件,这是一款开源软件。它的日志如果客户不自行备份的话会被自动清除,操作系统不会对其备份。 

4.结论 FS1 panic原因是vcs bug3140645触发的;

1、主机网络问题造成gab/had timeout;
2、gab检查had timeout以后,会kill had进程,但是由于bug3140645没有成功kill had;
3、gab检查到had心跳丢失而强制panic OS;
5.联系方式:SUSE Linux
l Novell Suse 服务请求:先发邮件至: Email: csc_service@novell.com,
再打Novell800电话:8008106500或010-65339240或15901559940(夜间值班工程师),采用用户名和项目名称的形式来处理。
VCS:
1、拨打8008109771或者4008109771,直接按4,然后输入Case Number:08433845 (根据历史case建新单,

根因

结论 FS1 panic原因是vcs bug3140645触发的;
1、主机网络问题造成gab/had timeout;
2、gab检查had timeout以后,会kill had进程,但是由于bug3140645没有成功kill had;
3、gab检查到had心跳丢失而强制panic OS;

需要
解决方法,安装补丁5.1SP1RP4
下载地址:https://sort.symantec.com/patch/detail/7893

解决方案
结论 FS1 panic原因是vcs bug3140645触发的;
1、主机网络问题造成gab/had timeout;
2、gab检查had timeout以后,会kill had进程,但是由于bug3140645没有成功kill had;
3、gab检查到had心跳丢失而强制panic OS;

需要
解决方法,安装补丁5.1SP1RP4
下载地址:https://sort.symantec.com/patch/detail/7893

建议与总结
结论 FS1 panic原因是vcs bug3140645触发的;
1、主机网络问题造成gab/had timeout;
2、gab检查had timeout以后,会kill had进程,但是由于bug3140645没有成功kill had;
3、gab检查到had心跳丢失而强制panic OS;

需要
解决方法,安装补丁5.1SP1RP4
下载地址:https://sort.symantec.com/patch/detail/7893

END