N1SL16单板外环回导致下游单板检测到瞬间的SF事件

发布时间:  2013-05-30 浏览次数:  168 下载次数:  0
问题描述

某现网客户在网元A的N3SL16单板做光口外环回,做环回后发现单板所在的复用段环发生了倒换,检查告警,复用段倒换时间和LOOP_ALM,MR_RDI告警出现时间一致,检查下游网元B的N3SL16单板在该时间段没有任何告警,上游网元A外环回的N3SL16上报MS_RDI。

A网元的N1SL16:
11    MS_RDI          MN          end         2013-04-14 10:33:19  2013-04-14 10:33:24  0x01   0x00   0x01   0xff     0xff
11    LOOP_ALM    MN          end         2013-04-14 10:33:19  2013-04-14 10:38:19  0x01   0x00   0x01   0x01   0x00
A网元复用段告警:
9     APS_INDI         MJ          end         2013-04-14 10:33:20  2013-04-14 10:43:23  0x02   0x01   0x00   0x00   0x00  
9     MS_APS_INDI_EX    MJ          end         2013-04-14 10:33:20  2013-04-14 10:43:23  0x02   0x01   0x08   0x01   0x00
B网元复用段告警:
9     APS_INDI          MJ          end         2013-04-14 10:33:20  2013-04-14 10:43:23  0x02   0x01   0x00   0x00   0x00  
9     MS_APS_INDI_EX     MJ          end         2013-04-14 10:33:20  2013-04-14 10:43:23  0x02   0x01   0x0b   0x01   0x00  


处理过程
B网元K字节事件:
  1      299       SF_DETECTED          0x0000      2013-04-14 10:33:18  0x04a55485 
…….
  1      319       SF_CLEARS            0x0000      2013-04-14 10:33:22  0x04e3c202 
查看B网元K字节事件,在做光口外环回时,B网元复用段检测到了短时间的SF事件,以至于告警被过滤掉而没有上报,但是可以从上游的MS_RDI告警可以说明下游确实出现了SF。根据告警和环回时间一致这点,怀疑是外环回导致的SF。
在实验室进行重现,确实存在外环回后下游单板随机出现SF或者SD,而且每次在做环回的这个时间点,下游单板检测到性能瞬间劣化并马上恢复正常。
根因

环回过程中会导致性能劣化

解决方案
经过芯片专家分析,出现该现象的原因:
单板做外环回的过程是将进入的信号帧进行处理返回到发送方向,在这个过程中会对不同时间节点的信号帧结构进行对齐,而这个信号帧对齐的过程会导致性能的劣化(瞬时间出现的误码和指针调整等,每次劣化的程度不同),完成环回动作(帧对齐)后性能就恢复正常。
建议与总结
该现象是由外环回的特性决定,为正常现象,与单板版本无关,与单板类型无关,之所以以前没有注意到该现场是因为它不是必然出现的,即使出现也因为告警滤斗功能不会上报相应告警而没注意。这次如果没有在复用段环里面(SF,SD事件),可能也不会发现。

END