XX市XX城域网S12700集群分裂业务中断

发布时间:  2017-03-22 浏览次数:  261 下载次数:  0
问题描述
XX市XX城域网一套S12708集群分裂,版本V200R006C00SPC500,重启后无法合并 ,下挂业务部分中断。
告警信息
1、10:36分命令行重启整机

Dec 12 2016 10:36:32 JYQJYJ_ZXJF_S12708_01
%%01SHELL/5/CMDRECORD(s)[11280445]:Recorded command information. (Task=VT0,
Ip=172.16.92.2, VpnName=, User=**, AuthenticationMethod="Password",
Command="reboot")

2、重启后1号框单板注册正常,2号框所有单板注册后因收不到系统主心跳导致重启,反复加退集群

Dec 12 2016
10:43:57 JYQJYJ_ZXJF_S12708_01 %%01ALML/4/ENTRESET(l)[1906]:SFU frame[2] board[12] is
reset. The reason is: Reset
for no heart.

Dec 12 2016
10:44:04 JYQJYJ_ZXJF_S12708_01 %%01ALML/4/ENTRESET(l)[1939]:MPU frame[2] board[9] is
reset. The reason is: Reset
for no heart.

Dec 12 2016
10:44:06 JYQJYJ_ZXJF_S12708_01 %%01ALML/4/ENTRESET(l)[1944]:MPU frame[2] board[10] is
reset. The reason is: Reset
for no heart.

Dec 12 2016
10:44:10 JYQJYJ_ZXJF_S12708_01 %%01ALML/4/ENTRESET(l)[1950]:SFU frame[2] board[11] is
reset. The reason is: Reset
for no heart.

Dec
12 2016 10:44:14 JYQJYJ_ZXJF_S12708_01 %%01ALML/4/ENTRESET(l)[1956]:SFU frame[2] board[13] is
reset. The reason is: Reset
for no heart.
处理过程
研发实验室按照客户组网方式搭建环境无法建立集群,复现现网问题。

交换网板与集群卡之间的信号指标异常:信号的上升下降沿异常。

当前异常状态下交换网板到集群卡以及线卡板通信链路均异常,分析交换网板LSW异常概率较大。对异常链路进行排查确认链路匹配电容容值正常为100nf,更换交换网板的LSW芯片之后重新测试相关链路信号质量恢复正常。

经过以上分析确认返还单板的LSW芯片异常。
根因
1号框11号槽位交换网板ET1D2SFUA000故障导致集群链路不通,2号框主控板无心跳重启,反复加退堆叠;因交换网板故障影响跨板流量以及协议报文处理,导致OSFP部分邻居频繁震荡,部分业务流量受损。
解决方案
现场更换备件恢复业务。
建议与总结
1、当前集群系统仅部署一对集群子卡,集群链路未做1+1备份,容易造成单点故障,需要增加至两对集群子卡增加可靠性。

2、设备当前无补丁,建议打上最新补丁。

END