PTN950升级后新增MPLS_TUNNEL_LOCV告警

发布时间:  2012-05-30 浏览次数:  369 下载次数:  0
问题描述
PTN950成功升级至V1R2C01SPC600后,新增MPLS_TUNNEL_LOCV告警。





MPLS_TUNNEL_LOCV




处理过程

1、用traceroute功能初步定位到故障发生在2229-PTN950(1-1)和2248-PTN910(3-2)这两个网元直连链路上。故障表现为:ping不通。2229网元1-1端口存在IP地址193.144.2.46,但是ping不通本端端口IP,且使用命令:lim-ptn-get-ctrl-info:0查询不到1-1的端口信息。
:lim-ptn-get-ctrl-info:0
                                                                            CONTROL-LINK-INFO                                                                                        
  Local-Index  Local-Interface-Name  Local-Address    Mask             If-Type          Psu-Status  If-Status  Osi-Status  Comb-Status  Protocol-Type  Mtu         Mac               
  0x00000029   LoopBack              127.0.0.1        255.0.0.0        Loopback         1           1          1           1            0              1536        00-00-00-00-00-00 
  0x0000002a   IonLoopIf             11.16.1.133      255.255.255.255  Loopback         1           1          1           1            5              1536        00-00-00-00-00-00 
  0x10c00005   Ethernet258           193.144.3.102    255.255.255.252  Broadcast        0           2          2           2            0              1450        28-6e-d4-1d-ab-ef 
  0x10c00006   Ethernet256           193.144.3.78     255.255.255.252  Broadcast        0           2          2           2            0              1450        28-6e-d4-1d-ab-f0 
  0x10c00008   Ethernet257           193.144.2.49     255.255.255.252  Broadcast        7           1          2           1            0              1450        28-6e-d4-1d-41-93 
  Total records :5                                     
2248网元无法学到与2229直连端口1-1的MAC地址,且ping不通其端口IP地址193.144.2.46。

2、从上面的分析来看,初步原因为2229-PTN950网元内存中端口信息紊乱导致ARP信息丢失,引起两端无法学到正确的ARP,最终导致tunnel故障。
3、采集相关数据返回研发进一步分析2229-PTN950网元端口信息紊乱的根因。
1)包加载升级激活过程中是不会锁定特殊数据备份的,端口信息相关的备份都属于特殊数据备份
2)2229-PTN950在激活8号备主控后,当时的主主控7号板短时间内也发生了一次异常复位          
3)7号板的异常复位,并没有降为备板,所以出现了主板复位后仍然是主板的场景,这种场景下存在端口索引丢失或紊乱的隐患。
4)、7号板的异常复位属于内存申请不到引起的主动复位。重新复位单板后内存使用正常。
        通过分析得出:2229-PTN950网元7号主控板出现因申请不到内存而主动复位。包加载升级激活备主控后,由于主主控出现异常软复位,且主主控复位后仍然为主板,触发软件bug导致网元端口信息紊乱,最终ARP学习失败引起tunnel故障。出现场景仅为:主板复位后仍然是主板。
        主主控复位后仍然为主场景下,可能出现端口信息紊乱的问题在高版本V1R3C02已经解决。


 






根因
2229-PTN950网元7号主控板出现因申请不到内存而主动复位。包加载升级激活备主控后,由于主主控出现异常软复位,且主主控复位后仍然为主板,触发软件bug导致网元端口信息紊乱,最终ARP学习失败引起tunnel故障。出现场景仅为:主板复位后仍然是主板。
      
解决方案

通过traceroute定位到故障网元2229--PTN950,同时硬复位主控板恢复(先硬复位备用主控板,隔几秒后再硬复位主用主控板)。
 






建议与总结

对现网网元进行定期健康状态巡检,并将巡检发现的问题进行及时处理。






END