关于PTN设备V100R003C02版本的BUS_ERR告警故障处理一例

发布时间:  2013-05-21 浏览次数:  164 下载次数:  0
问题描述
某局移动PTN3900设备#897-徐闻综合楼网元,15-EG8上报 BUS_ERR告警,BUS_ERR告警参数:0x11、0x01.



BUS_ERR。告警参数:0x11、0x01


处理过程

1、交叉板或支路板问题(含软件匹配、硬件、物理插板问题等)
2、业务板到交叉板的母板总线损坏(母板故障)
3、其他(主控问题)

处理过程:
1、处理过非常多的Bus_err告警;一般来看不是支路板问题,就是交叉板问题。
2、通过告警参数查询发现,0x11、0x01。
告警参数示意“XCSA 的I2C链路的SDA丢失”XCSA是指9号板、XCSB是指10号板;其中的I2C是给1588信号传输用的。
3、通过告警参数来看,初步怀疑9槽位交叉和15槽位EG8单板之间的通信问题;因为交叉板有保护,故我们优先进行了交叉倒换,但是倒换后故障不消失。
4、遂更换15槽位EG8硬件,更换后告警依旧。
5、把换下来的EG8插到其他空余槽位,告警不上报。同时各个单板均未发现倒针情况。
以上把交叉和支路都排查了,但是故障没有解决;只能另辟溪路。
6、因为主控板有双配,故我们对主控板进行了倒换;倒换后故障消失。
7、遂,采集数据等提交研发分析。
研发通过看完故障处理过程和数据后,表示PTN3900设备V1R3C02版本对BUS_ERR检测机制做了优化;原来Bus_err只是交叉和支路板之间进行检测,现在又增加了主控检测。
8、故本次故障原因为主控硬件问题


根因

主主控硬件问题上报告警

解决方案

主备倒换后,更换原主主控
建议与总结
PTN3900设备V1R3C02版本对Bus_err检测机制做了刷新;原来Bus_err只是交叉和支路板之间进行检测,现在又增加了主控检测。后续PTN新版本都延续了这个机制。
另,目前的V1R3C02资料中没有刷新这个处理机制;还是老旧的处理方法,建议研发部门及时刷新。

不过,现有的新的检测机制还是不能通过BUSERR告警直接定位到单板,还是需要现场逐一排查。


END