单板故障导致读取到错误K字节,复用段倒换失败

发布时间:  2012-12-14 浏览次数:  62 下载次数:  0
问题描述
客户反馈:现网倒换已恢复#1930网元(9500设备)的西向#803网元(3500设备),客户在803网元带纤换板。

#1903网元光板R_LOS告警结束后,复用段没有倒换恢复,后来环上另外2个网元断纤(节点号是5,6的网元之间又断纤了),导致业务中断。现网后来关激光器方式做倒换测试故障不重现。

 

处理过程
 

803网元的K字节:

//单板离线后,启动K字节

 1     14525    BD_OFFLINE          0x0002     2010-10-23 20:34:21 0x0477c6c2 

 1     14526    K_ON_OFF            0x0002     2010-10-23 20:37:07 0x041cc357 

//0x1872K字节,发向1903网元的方向,发送K字节此后两个小时一直没有变化

 1     14532    K_SENDS             0x1872     2010-10-23 20:37:07 0x041d5fea

 1     14533    K_DIR               0x0002     2010-10-23 20:37:07 0x041d5ff2

 1     14536    K_RECEIVED          0x5782     2010-10-23 20:37:39 0x00d96d30

 1     14537    K_DIR               0x0002     2010-10-23 20:37:39 0x00d96d3b

//接收方向MSRDI,说明1903接收方向又坏了

 1     14543    K_RECEIVED          0x5786     2010-10-23 20:44:47 0x00cdad69

  1     14544    K_DIR               0x0002     2010-10-23 20:44:47 0x00cdad75

//短径收到了环倒换     

 1     14545    K_RECEIVED          0xb786     2010-10-23 20:44:47 0x00cdb344

 1     14546    K_DIR               0x0002     2010-10-23 20:44:47 0x00cdb34d

//MSRDI消失了,说明此时1903接收方向的SF已经好了

 1     14552    K_RECEIVED          0xb782     2010-10-23 20:44:58 0x01736ffa  1     14553    K_DIR               0x0002     2010-10-23 20:44:58 0x01737006

//此后,没有变化直到两个小时后,5号节点与6号节点光纤中断

 1     14556    K_RECEIVED          0xb56a     2010-10-23 22:30:34 0x00454d59 

 1     14557    K_DIR               0x0000     2010-10-23 22:30:34 0x00454d64 


1903网元的K字节:                                                                                        

//对应803收到MSRDI,1903接收方向SF,并正常发送环倒换K字节

1     2024     SF_DETECTED    0x0000     2010-10-23 12:44:49 0x0146ba1b。

1     2025     K_SENDS        0xb782     2010-10-23 12:44:49 0x0146bad0

//SF消失

1     2032     SF_CLEARS      0x0000     2010-10-23 12:45:0  0x01ec7ee9

//此处出现异常,SF消失,但是没有收到803网元短径发送的0x1872字节,而是收到了0xFFFF

1     2033     K_RECEIVED     0xffff     2010-10-23 12:45:0

分析0xffff K字节,K2字节后三位字节为111,为MS_AIS告警,分析此时协议的处理没有异常。SF消失后,线路板上报K字节,但是协议认为此时依然是SF,没有进行相关的动作。此后由于K字节没有变化,因此线路板没有更新K字节,复用段一致处于倒换状态下没有恢复;

分析0xffff K字节产生的原因,有记录表明:803网元单板上线后,发送了K_SENDS 0x1872K字节,如果是803故障,发送了错误的0xffff K字节,那么1903网元正常的处理应该收到MS_AIS告警,并且SF_DETECTED,但是实际情况不是如此,因此可以排除是1903接收方向接收到了错误的K字节;那么就只有一种可能性,1903网元线路板读取K字节或者上报K字节环节存在故障,导致上报了错误K字节。

软件在上报K字节的时候,由于通信有校验机制,因此判断为读取K字节队列时,由于硬件故障,读取到了错误的K字节0xffff。
根因
 

由于硬件故障,读取到了错误的K字节0xffff。

一个倒换网元SF消失

由于单板故障,协议查询单板K字节,误以为收到0xFFFF,认为是MS_AIS

协议没有做动作,复用段倒换恢复失败(相邻网元单端SF,当SF消失后,查询单板K字节,会是0x1***,进入倒换恢复态;

相邻网元双端SF,一端SF消失,查询单板K字节,检测到0xb***,变更发送K字节,状态不变;)


解决方案
更换故障单板。

END