某局点OSN3500网元多块单板上报不在位告警及电源异常问题

发布时间:  2012-12-13 浏览次数:  67 下载次数:  0
问题描述
2012年5月19日凌晨01时18分23秒,2249-中曹网元存大量的异常告警,从告警的情况来看,2、8、9、10、16单板上报单板不在位告警。同时上报大量电源异常、确件故障、电源异常、总线故障、芯片故障等告警存在。相关告警信息为:powerfail BUS_ERR
处理过程
 

1、2012年5月19日19时到现场进行定位,通过告警分析初步定位为电源异常问题,查询设备的复位记录发现无异常复位记录存在。但部份单板存在异常复位的情况存在。单板的复位记录的类型为04、10。由于无法确认是否为电源故障,采集数据给800进行分析。

2、在进行故障定位的过程中,发现9槽位上报单板不在位告警、11槽位上报串口通信失败告警。8槽位上报电源异常告警。其他槽位无异常告警存在。分别对三板单板进行拔插后发现11槽位单板正常,其他两块单板故障依旧。

3、2102年5月20日分别更换了8、9槽位的光板以及交叉板。8槽位更换后发现电源异常告警已清除,但9槽位由于逻辑单板被删除,导致单板一直无法正常开工。

4、2012年5月21日03:00分,10槽位的交叉板再次上报BUS_ERR告警。

数据分析:

 8号线路板上报powerfail告警,从告警参数看单板3.3V电源异常,正在使用备份3.3V电源,现网更换了8号单板后,powerfail告警消失,说明8号单板电源模块可能异常:

POWER_ABNORMAL    MJ   start   2012-05-19 02:18:41 None   SA   NEW_BOARD      board=8;01 00 01 00 05 ;

  9号交叉板上报不在位告警,一线到现场处理发现单板无法上电、指示灯不亮,初步怀疑电源模块已经失效或保险管烧毁:

 

 5月21日凌晨3点10号交叉板瞬报了1型和3型BUS_ERR告警,1型BUS_ERR告警含义为总线LOS,3型BUS_ERR告警内部总线OOF,这两个告警表明10号交叉板交叉芯片异常:

BUS_ERR    CR    end     2012-05-21 03:00:49 2012-05-21 03:03:40 SA     NEW_BOARD                         board=10;10 01 17 01 ff ;                                                                                                                                                                                                        BUS_ERR    CR    end     2012-05-21 03:03:53 2012-05-21 03:04:30 SA     NEW_BOARD                         board=10;08 02 17 01 ff ;                                                                                                                                                                                                       BUS_ERR    CR    end     2012-05-21 03:03:53 2012-05-21 03:04:30 SA     NEW_BOARD                         board=10;0b 01 17 01 ff ;                                                                                                                                                                                                       BUS_ERR    CR    end     2012-05-21 03:02:44 2012-05-21 03:04:50 SA     NEW_BOARD                         board=10;07 07 02 03 ff ;                                                                                                                                                                                                       BUS_ERR    CR    end     2012-05-21 03:02:44 2012-05-21 03:04:50 SA     NEW_BOARD                         board=10;07 08 02 03 ff ;

根因
 

 8、9、10槽位单板返回研发后,在实验室进行上电分析:

1、对9号交叉板进行分析,单板不上电,指示灯全灭。使用万用表测试单板电源模块输入电压,结果电源为0V,接着测试电源模块前端保险管F519,发现保险管已烧毁。更换保险管F519后对单板重新上电,单板能正常启动运行。上业务测试24小时,结果单板正常,无业务中断情况。

2、对10号交叉板进行上电分析。单板上电后正常开工,配置业务进行长期监控,业务正常,没有异常告警,未出现1型和3型BUS_ERR告警,故障不重现。

2、对8号交叉板进行上电分析。单板上电后正常开工,配置业务进行长期监控,业务正常,没有电源模块异常的告警,故障不重现

8和10槽位单板实验室故障不重现,是什么原因导致现网故障当时8槽位电模模块输出关断,10槽位高阶芯片异常?是什么原因导致9号交叉板保险管烧毁?仔细观察三块返回的单板外观,发现这三块单板上都有水渍。单板故障时有雷雨天气,因此单板表面的水渍应该是雨水,雨水导致了这三块单板异常。具体的水渍如下面的图中所示:

1)8槽位线路板水渍如下图所示,电源模块上也有水渍:

 

2)9槽位交叉板水渍如下图所示,电源模块附近有水渍:

3)10槽位交叉板水渍如下图所示,高阶芯片附近有水渍:

解决方案
贵阳联通这3块单板故障原因为雨水导致单板短路所致。请排查机房环境,避免再次出现被水淋的情况。

END