波分线路误码导致OSN3500设备交叉板SXCSA单板上报BUS_ERR告警

发布时间:  2013-04-02 浏览次数:  424 下载次数:  0
问题描述
1、某客户OSN 3500设备交叉板频繁上报BUS_ERR告警
告警信息
1、9-SXCSA单板上报BUS_ERR告警和HSC_UNAVAIL
2、主机版本为5.21.17.31
处理过程
1、首先确认业务,没有中断,9板位交叉板为备板。
2、检查9-SXCSA单板的详细告警信息,首先查看HSC_UNAVAIL告警,其参数为:0x04 0x01 0x09 0xff 0xff
对于HSC_UNAVAIL告警,HSC_UNAVAIL只有备板会上报,该告警的含义如下:
参数1: 表示告警的类型。
0x01表示本板状态坏
0x02表示有业务板检测到本板坏
0x04表示本板检测到2型BUS_ERR
BIT[3~6]:预留
0x80表示备板硬复位成功不足5分钟
参数2: 表示不可用单板的主备状态。
0x00表示主板 
0x01表示备板
参数3:
表示不可用单板的槽位号,取值为0x09,0x0A。0x50,0x51。
3、从上面可以看到可以看到产生此告警为9板位SXCSA单板检测到2型BUS_ERR告警导致
4、查看BUS_ERR告警,其参数为:0x0d 0x04 0x06 0x02 0xff和0x0d 0x04 0x04 0x02 0xff
BUS_ERR告警,该告警的含义如下:
参数 1: 默认表示单板逻辑板位(包括扩展板位)。
若参数4为0x03,那么参数1表示内部总线所在的交叉芯片号。
参数 2: 默认表示在该板位中的总线序号。
若参数3为0x03,那么参数2表示内部总线在芯片中的物理序号。
参数 3: 不同的比特表示不同的告警存在状态。
0x10表示存在BUS_LOS
0x08表示存在FIFO溢出
0x04表示存在B1误码
0x02表示存在BUS_OOF
0x01表示存在BUS_OOA
参数 4 : 表示BUS_ERR的告警类型。
0x01表示I 型BUS_ERR,它是由单块交叉板检测到的。
0x02表示II型BUS_ERR,它是由两块交叉板握手检测到的。
0x03表示III型BUS_ERR,它是由交叉板内部总线检测到的。
参数 5: 无效参数
5、从上面可以看到,是由于两块交叉板握手检测到13板位产生大量误码。其中:
0x0d表示13板位,对应实际单板为SLQ16
0x04代表13板位的第4跟总线,对应实际SLQ16的第4个光口
0x04:表示存在B1误码;0x06(其中06=02+04):表示同时存在0x01的OOF和0x04的B1误码
确认应该是13-SLQ16-4光口不停的产生大量B1误码和OOF导致。
6、查看13-SLQ16的告警信息,发现4光口不停上报R_LOF,经客户确认其承载在其他厂家波分上面,目前波分线路处于割接状态。
7、待波分线路稳定后,检查13-SLQ16-4光口,R_LOF告警消失,性能没有误码,再次检查交叉板的告警,所有告警结束。确认为波分线路割接导致我司设备不停上报R_LOF,从而导致交叉板产生告警。
根因
1、备交叉板故障
2、主备交叉备份状态异常
3、线路误码导致
4、主交叉板故障
建议与总结
1、正常情况线路板上报R_LOF是不会导致交叉板上报BUS_ERR告警的,从本次故障看到,在于其他厂家波分设备对接时,友商波分线路处于异常状态时,我司对接线路板不停上报R_LOF,说明交叉板检测到的状态是时好时坏,从而导致交叉板上报BUS_ERR告警。
2、对于告警参数中“不同的比特表示不同的告警存在状态”的说明:
告警参数0x为固定值,后两位为16进制计数:所以0x10的10对应10进制的16
告警参数后两位是按照2的bit计算:所以告警参数解释只有0x01、0x02、0x04、0x08、0x10(依次对应2的0、1、2、3、4次方)
对应其他告警参数,则是按照bit位进行计算,计算方式为:06=02(2的1次方)+04(2的2次方);05=01(2的0次方)+04(2的2次方);

END