主控板损坏导致LAG中断5分钟引起业务中断

发布时间:  2013-05-20 浏览次数:  49 下载次数:  0
问题描述
某国RTN950站点,网管版本V100R002C02SPC200,于2013-2-1 8:42出现LAG中断,OSN设备上报LAG_DOWN告警,几分钟之后业务恢复,网元瞬报BD_STATUS告警。
告警信息如图所示:
 
处理过程
日志分析:
采集并分析了现网的日志发现:现网网元在2013-2-1 8:43:24时间点上发生网元复位。
No.9:  2013-2-1 4:43:24
BOARD=7  TYPE=0xf0000040  SOFTTYPE=002
网元复位的具体原因:根据记录的错误码,确定主控软件在2013-2-1 8:42:22访问内存异常,导致读出的数据不正确,主机软件主动复位。
# 2013-2-1 4:42:22
fatal task errorcode=0x201200c2, Line 358 in ccmdlist.cpp
注:以上的网元日志时间为GMT时间,换算到当地时间需要加时区。
3G 业务中断的原因:
LAG协议由于是运行在主控板上,并且配置的是静态LAG,所以在复位期间LAG的控制报文不能进行交互(复位启动时间大约为4~5分钟),导致LAG短时间中断。  
上报BD_STATUS 告警的原因:
网元在软复位启动后,由于风扇和电源属于自动安装单板,会瞬报BD_STATUS告警,此告警不会对设备造成影响。

根因
日志分析:
采集并分析了现网的日志发现:现网网元在2013-2-1 8:43:24时间点上发生网元复位。
No.9:  2013-2-1 4:43:24
BOARD=7  TYPE=0xf0000040  SOFTTYPE=002
网元复位的具体原因:根据记录的错误码,确定主控软件在2013-2-1 8:42:22访问内存异常,导致读出的数据不正确,主机软件主动复位。
# 2013-2-1 4:42:22
fatal task errorcode=0x201200c2, Line 358 in ccmdlist.cpp
注:以上的网元日志时间为GMT时间,换算到当地时间需要加时区。
3G 业务中断的原因:
LAG协议由于是运行在主控板上,并且配置的是静态LAG,所以在复位期间LAG的控制报文不能进行交互(复位启动时间大约为4~5分钟),导致LAG短时间中断。  
上报BD_STATUS 告警的原因:
网元在软复位启动后,由于风扇和电源属于自动安装单板,会瞬报BD_STATUS告警,此告警不会对设备造成影响。

解决方案
复现过程:
基于现网失效机理确认如下两种情况可能导致访问内存异常:
1、  系统软件异常,导致访问内存异常。
2、  主控内存或主控硬件失效,导致访问部分地址出错。
研发通过搭建3套镜像环境,运行相同采集脚本,复现4天,未复现现网故障。
分析相关模块代码,确认系统不会导致内存访问异常场景。
试验室通过模拟内存部分颗粒失效的情况,可以模拟现网类似故障现象。
建议与总结
1、初步确认网元的主控板内存异常,导致主机软件概率读取内存的数据不正确;
2、LAG协议是运行在主控板上,所以导致在复位期间,LAG报文不能正常交互,造成LAG短时间中断,主控板起来之后LAG业务恢复。

需要更换主控单板解决问题。

END