扩展ECC设置错误,导致同一光网元平时登录正常,而OLP倒换后通过ESC登录网元出现脱管

发布时间:  2013-05-20 浏览次数:  90 下载次数:  0
问题描述
某客户二干波分网络,采用华为1600G设备,A、B、E、J为OTM站,其他为OLA站,组网如下。其中在H站和J站之间配置了第三方OLP保护(OLP和备用通道光放站K都是第三方设备)。某日,H站和I站间主光路抖动,OLP发生倒换,业务正常。H站收I站方向OAU瞬报一次MTU_LOS,第三方OLP保护,H站收I站方向SC2有R_LOF告警;
E站对J站方向所有子架脱管,I站和J站所有子架脱管,其他站点登陆正常,A站所有子架都是网关网元。


E站为背靠背OTM,E站对B站方向TOM有4个子架(见下图1),对J站方向有4个子架(见下图2),
J站为OTM,有4个子架(见图3) 



                       图1:E站对B站方向 



                       图2:E站对J站方向 
                     


                     图3:J站
处理过程
1、由于第三方OLP为1:1保护,倒换到备用后,第三方OLP单板主用基本不发光(只发很弱的测试光),导致I站监控信号的光是收不到的,所以I站脱管是正常;
2、第三方OLP倒换到备用通道后,第三方备用通道光放站K只是把业务信号正常放大,实际传递我们的监控信号还是有问题,网管上H站SC2对皮口方向光口上报LOF告警,说明J站的SC1单板(见图3:22网元)也收到了LOF告警,由于J站22网元没有OTU单板,OSC和ESC都是不同的,所以导致J站22网元脱管;J站22网元作为人工扩展ECC的server,23/24/26网元作为client,所以也导致这几个子架脱管;
3、E站B方向14网元配置了SC2单板,配置人工扩展ECC作为server,J方向17网元作为18/19/60网元的server,正常情况下还应该配置为14网元的client,但现场检查并没有设置;
4、没配置为14网元client,正常情况下17网元是脱管的;但17网元正好有1块LWF单板和J站26网元LWF对开一波业务,LWF单板支持ESC功能,17网元通过ESC通道登录的。所以当OLP倒换后,由于SC2板收LOF,导致J站所有子架(包括26网元)脱管,从而导致17网元以及作为它的client的各网元脱管。
根因

人工扩展ECC设置问题

解决方案
1、第三方OLP倒换后,I站和J站脱管是正常的;
2、检查E站B方向ECC设置:E站B方向配置了人工扩展ECC,14网元配置了SC2单板,该网元为server,15/16/29网元为client;
3、安排工程师赶到E站,现场登录E站J方向各子架正常,检查ECC配置为人工扩展ECC,17网元为server,18/19/60网元为client;其中17网元ECC设置如下:
:cm-get-lanport
                                     CM LANPORT                                  
                      LAN_FLAG    LAN_PORT    LAN_IP                             
                      server      1611        0.0.0.0                            
                      client      0           0.0.0.0  
4、因为E站SC2单板配置在14网元,正常17网元作为server,还应该作为14网元的client,所以这应该就是导致网元脱管的原因。但是在主光路情况下为什么能正常登录呢?
5、此时客户已确认H站到I站之间光路已经没有问题,为了查明原因,先将OLP切回主用,脱管的网元都恢复正常;
查询ecc路由,除了18/19/60网元外,直连的还有一个可疑的26网元(0x00090018),26网元是J站中的一个子架,而且相连的ECC端口号为4。
:cm-get-eccroute
                                     ECC ROUTE                                   
      DST-ID      DXC-ID      DISTANCE  LEVEL  MODE        SCC-NO  PEER_SCCNO    
      0x00090012  0x00090012  0         4      auto        26      24            
      0x00090013  0x00090013  0         4      auto        25      24            
      0x00090018  0x00090018  0         4      auto        4       8             
      0x0009003c  0x0009003c  0         4      auto        24      24            
      0x00090041  0x00090018  10        4      auto        4       8        
      。。。
6、查询ECC端口信息:24/25/26为通过人工扩展ECC相连的端口号,还有一个端口号为4的,对应11板位LWF。至此问题清楚了:因为E站17网元没有配置为14网元(配置的SC2的子架)client,正常情况下17网元是脱管的;而17网元正好有1块LWF单板和J站26网元LWF对开一波业务,LWF单板支持ESC功能,17网元通过ESC通道登录的。当OLP倒换后,由于SC2板收LOF,导致J站所有子架(包括26网元)脱管,从而导致17网元以及作为它的client的各网元脱管。
:cm-get-maccon
                                    MAC CONNECT                                  
                 DST-ID      BOARD-ID  FIBER-ID  MODE        SCC-NO              
                 0x00090012  7         0         eccauto     26                  
                 0x00090013  7         0         eccauto     25                  
                 0x0009003c  7         0         eccauto     24                  
                 0x00090018  11        1         eccauto     4                   
7、将17网元设置为14网元的client后,OLP倒换测试网元登录正常
:cm-get-lanport
                                     CM LANPORT                                  
                      LAN_FLAG    LAN_PORT    LAN_IP                             
                      server      1611        0.0.0.0                            
                      client      1609        129.9.0.14      
建议与总结
配置人工扩展ECC,一般选择配置SC1/SC2的子架作为server,其他子架作为client;如果子架数量较多(>7个),可以配置2级,及某个网元既作为server又作为client。

END