某客户自行更换一台OSN3500设备11槽位N2SL16单板业务异常问题

发布时间:  2014-12-12 浏览次数:  208 下载次数:  0
问题描述

某客户自行更换一台OSN3500设备11槽位N2SL16单板的过程中,业务中断,主机版本5.21.18.50P01

处理过程

1,采集数据,发现操作的网元id为1677,其11槽位SL16单板在3点复用段环中(1677--4005---1682)。

 

2,通过分析K字节,1682网元的交叉侧实际的复用段节点号为2,这样1682和4005网元的复用段节点号相同,所以复用段倒换失败,业务中断。但是网管上查询以及命令行查询1682的主机侧的复用段节点参数都是1,怎么会有这种情况产生呢?

 

1682网元K字节,本网元发送的是0x0120,所以1682网元交叉侧节点号就是2。西向节点号为1,东向节点号为0。

  1      889       K_SENDS              0x0120      2014-07-16 01:56:08  0x035a3df1 

  1      890       K_DIR                0x0000      2014-07-16 01:56:08  0x035a3dfa 

  1      891       K_SENDS              0x0020      2014-07-16 01:56:08  0x035a3e60 

  1      892       K_DIR                0x0002      2014-07-16 01:56:08  0x035a3e68

 

4005网元K字节,本网元发送的是0x0120,所以4005网元交叉侧节点号也是2。西向节点号为1,东向节点号为0。

  6      55        K_SENDS               0x0120      2014-07-16 01:56:07  0x01f5519a 

  6      56        K_DIR                 0x0000      2014-07-16 01:56:07  0x01f551a1 

  6      57        K_SENDS               0x0020      2014-07-16 01:56:07  0x01f55239 

  6      58        K_DIR                 0x0002      2014-07-16 01:56:07  0x01f55240 

 

1682网元主机侧的节点号设置是1,主机命令查询如下:

#0x90692:cfg-get-rmsattrib:1;

                                MSSPR-PG-ATTRIBUTE                               

              PG-ID  LOCAL-NODEID  WEST-NODEID  EAST-NODEID  WTR-TIME            

              1      1             0            2            600                 

  Total records :1 

 

3,分析1682网元主控18号单板BB1有下面的记录。表明修改节点号是在2011-09-28 17:08:03(GMT时间),而且老的节点号和交叉侧节点号一致。

2011-09-28 [17:08:03]    0x0001    UserId:2;PgId:1;OldNode:2(L),1(W),0(E);NewNode:1(L),0(W),2(E)   

 

4,由此可见,1682的复用段节点id的确曾经被修改过,判断应该是在修改1682网元复用段节点id时网元的通信异常,导致节点号信息没有下发到交叉侧。

 

5,进一步定位发现是多块单板曾经上报过comfail告警,建议用户更换AUX单板并且重新设置1682网元的复用段节点id,做复用段倒换测试正常,问题解决。

根因
在修改1682网元复用段节点id时网元通信异常,导致节点号信息没有下发到交叉侧,从而导致复用段环上有冲突的节点id,复用段环到换失败。
解决方案

1,更换1682网元AUX单板,解决网元板件通信问题。

 

2,修改1682网元复用段节点号,正确配置复用段参数信息。

 

3,做复用段倒换测试正常后,更换1677网元11槽位SL16单板成功。

END