配置IP错误导致PTN网络LOCV告警频繁抖动问题

发布时间:  2012-08-22 浏览次数:  64 下载次数:  0
问题描述
D国T客户网络PTN网络其中一个环上的很多设备PTN910/950均存在LOCV告警频繁抖动,告警和组网图示如下:
178757  MPLS_TUNNEL_LOCV  CR  end  2010-02-08 14:52:17  2010-02-08 14:53:38 SA tunnel  tunnel=0x800046;;
178758  MPLS_TUNNEL_LOCV  CR  end  2010-02-08 14:54:01  2010-02-08 14:55:56 SA tunnel  tunnel=0x800040;;
178763  MPLS_TUNNEL_LOCV  CR  end  2010-02-08 14:56:06  2010-02-08 14:57:45 SA tunnel  tunnel=0x800046;;
178764  MPLS_TUNNEL_LOCV  CR  end  2010-02-08 14:57:56  2010-02-08 15:01:45 SA tunnel  tunnel=0x800040;;
178765  MPLS_TUNNEL_LOCV  CR  end  2010-02-08 14:57:56  2010-02-08 15:01:45 SA tunnel  tunnel=0x800043;;
178766  MPLS_TUNNEL_LOCV  CR  end  2010-02-08 14:57:56  2010-02-08 15:01:45 SA tunnel  tunnel=0x800046;;
 


LOCV告警频繁抖动

处理过程
经过分析日志信息和配置,发现在JD215_H950_2站点上配置的一条Tunnel指定了错误的下一跳,而该下一跳IP刚好是从JD215_H950_2到NP_JL055_H910_1的下一跳IP,配置信息如下:
 
  INDEX    DIRECTION IN-BID IN-SBID  IN-PORTID  IN-LABEL OUT-BID OUT-SBID OUT-PORTID OUT-LABEL
  8388620     POSIT   4     255      1     27     1     255      1      33      10.252.164.33
  8388618     POSIT   4     255      1     25     1     255      1      31      10.252.164.33
  8388614     POSIT   4     255      1     21     1     255      1      27      10.252.164.33
  8388612     POSIT   4     255      1     19     1     255      1      20      10.252.164.33
  8388732     POSIT   4     255      1     47     1     255      1      56      10.252.164.33
  8388736     POSIT   4     255      1     53     1     255      1      60      10.252.164.33
  8388692     POSIT   4     255      1     119    2     255      1      78      10.252.132.149
  8388688     POSIT   4     255      1     115    1     255      1      76      10.252.132.149
  8388686     POSIT   4     255      1     113    2     255      1      71      10.252.132.149
  8388684     POSIT   4     255      1     111    2     255      1      68      10.252.132.149
8388682     POSIT   4     255      1     109    2     255      1      66      10.252.132.149
 
 215设备端口1,255,1和2,255,1对应的下一跳如下图所示:

由于Tunnel 8388688配置的出端口为1#板1#口,而下一跳为10.252.132.149,因此当有流量经过该Tunnel时会触发ARP学习,由于配置错误导致一直学习不到进而会删除相同IP的DMAC表项,因此215->55之间的DMAC表项会被删除,此时业务会中断。但同时215->55持续有流量会触发ARP的学习,重新配置DMAC表项,业务恢复。这个过程持续反复,就会造成问题现象。

根因
分析环上的出现LOCV的Tunnel,得出这些Tunnel均是通过215设备的2#板1#口向外发送的方向出现问题,不经过该端口的隧道正常。将配置错误的Tunnel的下一跳改为正确值,告警抖动的现象消失,业务恢复。 
将Tunnel的下一跳IP配置正确,业务即可恢复正常,OAM告警抖动问题消失。
解决方案
 
分析环上的出现LOCV的Tunnel,得出这些Tunnel均是通过215设备的2#板1#口向外发送的方向出现问题,不经过该端口的隧道正常。将配置错误的Tunnel的下一跳改为正确值,告警抖动的现象消失,业务恢复。
将Tunnel的下一跳IP配置正确,业务即可恢复正常,OAM告警抖动问题消失。



建议与总结
在配置过程中要仔细按照规划配置好正确的IP。

END