交叉板异常引起EG8单板上报Bus_err,下挂网元脱管

发布时间:  2012-11-19 浏览次数:  131 下载次数:  0
问题描述
某运营商一PTN3900网元1槽位81EG8闪报bus_err总线错误告警;同时网管网监控发现1槽位下挂的三个网元脱管告警,所带业务未中断,但是1槽位对应的接口板19槽位EFF8所带的以太业务中断。
组网拓扑:



级别 名称 告警源 网元类型 定位信息 发生时间(CT) 清除时间(CT) 确认时间(CT) 附加信息
紧急 BUS_ERR 1126-NE1126 OptiX PTN 3900 1-81EG8-OTHER 11/01/2012 17:47:19 11/01/2012 17:47:34 11/01/2012 20:08:52
告警参数II(16进制) 0x50 0x01


处理过程

原因分析
(1)软件版本不匹配;
(2)单板未插紧;
(3)业务板故障;
(4)交叉芯片损坏;
(5)业务板到交叉板的母板总线损坏;
(6)存在一块主交叉板且有交叉,插入的备交叉板没有安装。

处理过程

1、 核实全网前期已进行过软件版本统一,排除单板软件不匹配因数;
2、 查询告警bus_err的相应参数为0x50 0x01,核实参数含义为该槽位的单板与交叉板的心跳报文检查异常;
3、根据该参数含义定位为1槽位EG8单板与交叉板之间总线异常,缩小故障范围为1)EG8单板故障 2)交叉板故障 3)背板总线故障;
4、在网管上下发1槽位EG8单板硬复位命令,该单板复位上线后,故障仍存在;
5、安排人员带上同型号EG8单板及XCS交叉板,要先进行拔插操作,并看该槽位是否存在倒针,确认无异常后,重新插拔过EG8后故障仍存在。于是先更换EG8单板,由于带上去的EG8软件版本较低,待其自动进行软件匹配重新上线后,发现故障仍存在,排除EG8单板故障原因;
6、缩小故障可能范围为1)交叉板故障 2)背板总线故障,于是通过网管下发交叉倒换命令,待交叉倒换完成后,总线异常告警(bus_err)消失,1槽位对接下挂的3个PTN 950网元恢复登陆,与数据人员核对1槽位对应的接口板19槽位EFF8所带的以太业务已恢复。
7、指导现场人员更换相应异常交叉单板,待其自动进行软件匹配重新上线后,再次进行交叉单板倒换,核实故障已解决。


根因

交叉板硬件故障导致上报告警

解决方案
1.通过网管下发交叉倒换命令,待交叉倒换完成后,总线异常告警(bus_err)消失,1槽位对接下挂的3个PTN 950网元恢复登陆,与数据人员核对1槽位对应的接口板19槽位EFF8所带的以太业务已恢复。
2.指导现场人员更换相应异常交叉单板,待其自动进行软件匹配重新上线后,再次进行交叉单板倒换,核实故障已解决。


建议与总结
 定位PTN设备总线故障时分为交叉板上报和业务单板上报
交叉板:
告警类型 告警参数 告警意义
BUS_ERR 05 Y0 表示与11槽位处理板连接的serdes链路故障,Y = 0~7;
BUS_ERR 05 Y1 表示与6槽位处理板连接的serdes链路故障,Y = 0~7;
BUS_ERR 05 Y2 表示与4槽位处理板连接的serdes链路故障,Y = 0~7;
BUS_ERR 05 Y3 表示与17槽位处理板连接的serdes链路故障,Y = 0~7;
BUS_ERR 05 Y4 表示与8槽位处理板连接的serdes链路故障,Y = 0~7;
BUS_ERR 05 Y5 表示与5槽位处理板连接的serdes链路故障,Y = 0~7;
BUS_ERR 05 Y6 表示与15槽位处理板连接的serdes链路故障,Y = 0~7;
BUS_ERR 05 Y7 表示与1槽位处理板连接的serdes链路故障,Y = 0~7;
BUS_ERR 05 Y8 表示与12槽位处理板连接的serdes链路故障,Y = 0~7;
BUS_ERR 05 Y9 表示与14槽位处理板连接的serdes链路故障,Y = 0~7;
BUS_ERR 05 Ya 表示与3槽位处理板连接的serdes链路故障,Y = 0~7;
BUS_ERR 05 Yb 表示与18槽位处理板连接的serdes链路故障,Y = 0~7;
BUS_ERR 05 Yc 表示与7槽位处理板连接的serdes链路故障,Y = 0~7;
BUS_ERR 05 Yd 表示与13槽位处理板连接的serdes链路故障,Y = 0~7;
BUS_ERR 05 Ye 表示与16槽位处理板连接的serdes链路故障,Y = 0~7;
BUS_ERR 05 Yf 表示与2槽位处理板连接的serdes链路故障,Y = 0~7;
典型定位步骤:
a、先拔有告警的XCS单板,观察XCS背板连接器是否有压痕,同时观察母板对应该槽位的连接器是否存在倒针现象。
b、 若无倒针现象再将拔出的XCS,插回到原网元,查看BUS_ERR告警是否消失?如果告警消失,说明XCS单板没有插紧;
c、拔告警对应的处理板,观察该处理板背板连接器是否有压痕,同时观察母板对应的连接器是否存在倒针现象。
d、若无倒针现象将该处理板插回到原网元,查看BUS_ERR告警是否消失?如果告警消失,说明处理板没有插紧;   
e、若前面两个操作bus err现象仍然没有消除,先用备件交叉板更换告警的交叉板,看bus err现象是否消失?若消失,原交叉板坏。
f、若更换交叉板bus err现象仍没有消失,最后再用备件处理板更换告警对应的处理板,看bus err现象是否消失?若消失,原处理板坏。
g、若更换新交叉和新处理板都未消失,则背板有问题。
业务单板:
上报单板 告警参数 告警意义
处理板 05 Y 检测链路:5401_IPE的link状态,Y为端口号,偶数(0、2..16)对应9槽位交叉板,奇数(1、3..15)对应10槽位交叉板
处理板 06 Y 检测链路:5401_OPI 的link状态,Y为端口号,偶数(0、2..16)对应9槽位交叉板,奇数(1、3..15)对应10槽位交叉板
处理板 0x0b 0x01 XCSA 的I2C链路的SDA丢失
处理板 0x0b 0x02 XCSA 的I2C链路的SCK丢失
处理板 0x0b 0x03 XCSB 的I2C链路的SCK丢失
处理板 0x0b 0x04 XCSB 的I2C链路的SCK丢失
处理板 0x0b 0x05 接收到的数据CRC校验错
 处理板 0x07 Y 检测链路:X11侧serdes的状态。Y为接口板/子卡ID,当Y = 0xff时为接口板的告警。
 处理板 0x08 Y 检测串行化总线的状态。Y为接口板/子卡ID。
 处理板 0x0a Y 中断屏蔽位异常。Y为接口板/子卡ID。
 接口板 0x05 0x01 Para[0] = 5, para[1] = 1。检测链路:与处理板通道的link状态;
 接口板 0x05 0x02 Para[0] = 5, para[1] = 1。检测链路:与处理板通道的link状态;
 接口板 0xb 0x01
0xb 0x02
Para[0]=11,para[1]=1 I2C链路的SDA丢失;
Para[0]=11,para[1]=2 I2C链路的SCK丢失;
 接口板 0xb 0x03
0xb 0x04
Para[0]=11,para[1]=3 I2C链路的SDA丢失;
Para[0]=11,para[1]=4 I2C链路的SCK丢失;
 接口板 0xb 0x05 Para[0]=11,para[1]=5 I2C链路接受校验错误;
 子卡 0x05 0x03 检测链路:上行检测260 通道字同步及8b/10b链路解码历史寄存器(处理板mp1上检)
 子卡 0x06 0x01 检测链路:261 GE链路状态检测
 子卡 0x06 0x02 检测链路:261 FE链路状态检测
 子卡 0x06 0x03 261 Tbi时钟丢失即时告警
 子卡 0x08 0x01 串行化总线的告警(处理板上检)


END