传输链路质量问题导致NE80E MPLS LDP震荡

发布时间:  2010-03-01 浏览次数:  114 下载次数:  0
问题描述
NE80E的log日志中一直产生大量的MPLS LDP反复UP DOWN的告警记录,但业务没有受到影响。

告警如下:

Feb  5 2010 03:49:01 HZ-HZ-WY-SR-NE80E-2.MAN %%01RM/3/LDP_SESSION_STATE(l)[3799]:RM received the status UP  of the LDP session on the GigabitEthernet6/1/0.54.
Feb  5 2010 03:49:01 HZ-HZ-WY-SR-NE80E-2.MAN %%01RM/3/NOTIFY_OSPF_MSG(l)[3801]:RM notified OSPF of the status UP  of the LDP session on the GigabitEthernet6/1/0.54.
Feb  5 2010 03:58:27 HZ-HZ-WY-SR-NE80E-2.MAN %%01RM/3/LDP_SESSION_STATE(l)[3814]:RM received the status DOWN  of the LDP session on the GigabitEthernet6/1/0.54.
Feb  5 2010 03:58:27 HZ-HZ-WY-SR-NE80E-2.MAN %%01RM/3/NOTIFY_OSPF_MSG(l)[3816]:RM notified OSPF of the status DOWN  of the LDP session on the GigabitEthernet6/1/0.54.
Feb  5 2010 03:58:52 HZ-HZ-WY-SR-NE80E-2.MAN %%01RM/3/LDP_SESSION_STATE(l)[3819]:RM received the status UP  of the LDP session on the GigabitEthernet6/1/0.54.
Feb  5 2010 03:58:52 HZ-HZ-WY-SR-NE80E-2.MAN %%01RM/3/NOTIFY_OSPF_MSG(l)[3821]:RM notified OSPF of the status UP  of the LDP session on the GigabitEthernet6/1/0.54.
Feb  5 2010 04:08:18 HZ-HZ-WY-SR-NE80E-2.MAN %%01RM/3/LDP_SESSION_STATE(l)[3840]:RM received the status DOWN  of the LDP session on the GigabitEthernet6/1/0.54.
Feb  5 2010 04:08:18 HZ-HZ-WY-SR-NE80E-2.MAN %%01RM/3/NOTIFY_OSPF_MSG(l)[3842]:RM notified OSPF of the status DOWN  of the LDP session on the GigabitEthernet6/1/0.54.
Feb  5 2010 04:08:37 HZ-HZ-WY-SR-NE80E-2.MAN %%01RM/3/LDP_SESSION_STATE(l)[3849]:RM received the status UP  of the LDP session on the GigabitEthernet6/1/0.54.
Feb  5 2010 04:08:37 HZ-HZ-WY-SR-NE80E-2.MAN %%01RM/3/NOTIFY_OSPF_MSG(l)[3851]:RM notified OSPF of the status UP  of the LDP session on the GigabitEthernet6/1/0.54.
Feb  5 2010 04:08:38 HZ-HZ-WY-SR-NE80E-2.MAN %%01RM/3/LDP_SESSION_STATE(l)[3854]:RM received the status DOWN  of the LDP session on the GigabitEthernet6/1/0.54.

处理过程

从告警中查看震荡应当是由于ospf路由震荡导致的,单单看设备ldp session,
<HZ-HZ-WY-SR-NE80E-2.MAN>dis mpls ldp sess
61.130.122.167:0   Operational DU   Passive  0000:11:07  2671/2646  正常的建立时间很长
 61.164.1.21:0      Operational DU   Passive  0000:00:10  41/40    这条建立时间很短,而且总在刷新,因此导致震荡
找到了远端的地址是61.164.1.21,查看该地址的路由信息,
HZ-HZ-WY-SR-NE80E-2.MAN>dis ip rou 61.164.1.21 ver
Route Flags: R - relay, D - download to fib
------------------------------------------------------------------------------
Routing Table : Public
Summary Count : 1
Destination: 61.164.1.21/32
     Protocol: OSPF            Process ID: 100
   Preference: 10                    Cost: 1001
      NextHop: 61.164.4.30      Neighbour: 0.0.0.0
        State: Active Adv             Age: 00h08m34s  最短时候是2分钟就更新了
          Tag: 0                 Priority: medium
        Label: NULL               QoSInfo: 0x0
   IndirectID: 0x0              
 RelayNextHop: 0.0.0.0          Interface: GigabitEthernet6/1/0.54
     TunnelID: 0x18086ed            Flags:  D
发现该路由生成时间很短,因此存在路由震荡,对该地址进行ping测试,
ping -c 100 61.164.1.21
--- 61.164.1.21 ping statistics ---
    88 packet(s) transmitted
    84 packet(s) received
    4.54% packet loss  丢包比较严重
    round-trip min/avg/max = 1/1/6 ms
因此判断是丢包引起的路由震荡,指导前方排查丢包原因,经过排查确认是中间链路问题导致丢包,调整传输链路确认不丢包后问题解决。

根因

传输链路原因导致丢包严重,进而导致路由振荡、LDP session反复UP/DOWN。

解决方案

传输排查链路搞定丢包问题后问题解决。

建议与总结

END