VIS6600T产品(V200R003版本)四节点双活集群开局出现节点异常离线故障

发布时间:  2015-08-19 浏览次数:  180 下载次数:  10
问题描述

某据点两台VIS6600T组成四节点双活集群,四节点集群配置完成后出现随机节点自行离线重启现象,检查组网连线无异常,查看各节点心跳网络连通性正常,FC端口连接正常,且没有误码记录,检查交换机级联连线时发现存在大量CRC校验失败记录,更换级联模块以及光纤连线后重启各节点后恢复正常。

告警信息

ISM中存在多条XXX节点(IDXXX)已经离线记录

处理过程

1检查ISM历史告警记录,发现存在不定时间的节点离线复位重启记录

2命令行查看集群状态,存在节点CVM服务启动失败的现象

3检查心跳链路物理连接状态,确认无异常,各集群节点和交换机上ping各个节点地址,均可以正常通信

4检查内部互联光纤链路连接正常,不存在松动现象,检查记录和配置,不存在误码现象

更换各光纤线并交换光纤模块后问题无改善

5检查内部互联交换机时发现连接到远端设备的光纤端口中存在大量CRC校验错误记录和enc out错误记录,且在设备运行时有不断增加的情况,清空记录后短时间内仍然有错误记录产生,判断为级联端口和光纤线传输质量差导致,更换级联模块并更换级联光纤线后重启各节点后问题解决

 

根因

用于连接连接双活两端的V200R003C00SPC800机链路端口误码严重,导致四节点集群无法同步信息,继而出现节点离线重启

解决方案

1、 组建多节点VIS集群时必须将心跳网络交换机STP功能关闭,且保证各节点心跳链路始终保持联通状态

2、 内部互联用FC链路确保可以保证高质量传输,传输误码对集群运行影响很大

3、 集群使用链路(包括心跳、业务、内部互联)尽可能使用专用网路不要复用

 

建议与总结

多节点VIS集群出现节点离线时需要排查心跳链路连接状态,内部互联FC线路联通状态

以及各端口中是否存在传输误码现象

以上问题均可导致节点信息无法同步以致使集群出现异常

END