VMU双机心跳问题导致双机切换后mpu批量掉线

发布时间:  2015-04-03 浏览次数:  194 下载次数:  0
问题描述
突然间客户端上的mpu大部分掉线,从vmu的omu portal上看也是同样问题。
处理过程

1,首先查看网络情况,从管理员电脑及vmu上去ping各个掉线的mpu,发现正常ping,网络问题排除,mpu掉电问题排除。

2,登陆vmu及mpu的omu portal,查看业务运行状态,各个模块正常运行。

3,怀疑堆叠问题,将两台掉线的台mpu改回单机,vmu上删除,再重新堆叠。

4,mpu重新上线,客户端上功能恢复正常。

5,在vmu的omu portal上发现双机自动切换,怀疑心跳问题,以root登陆双机任意节点,执行cat /proc/drbd命令,

出现 0: cs:WFConnection ro:Secondary/Unknown ds:UpToDate/DUnknown C r----  表示出现脑裂,双机心跳问题,导致双机信息未同步,双机在倒换后就会出现问题。

6,如何修复DRBD脑裂:

   6.1检查服务器电源及心跳线连接是否正常,排除服务器连接问题。

   6.2在需要修复的节点上执行如下命令。

      将DRBD设置为备机:drbdadm secondary r0

      断开备机DRBD与资源的连接:drbdadm disconnect r0

      丢弃备机DRBD的数据:drbdadm -- --discard-my-data connect r0

   6.3在保留数据的节点上执行如下命令。

      将DRBD设置为主机:drbdadm connect r0

      在主、备机任意节点上执行如下命令查看脑裂是否修复。

      cat /proc/drbd

      出现类似如下所示的信息表示DRBD脑裂已修复。

      cs:Connected ro:Primary/Secondary ds:UpToDate/UpToDate C r----
7,脑裂修复,重新堆叠掉线的MPU,全部上线后尝试切换双机,一切正常。

根因
双机出现DRBD脑裂,导致双机的数据没有同步,在双机倒换后出现此问题,修复双机,重新堆叠使数据同步。
建议与总结
定时查看双机运行状态,确保双机堆叠的高可靠性。

END