AR1220的BGP邻居每个半个小时左右就中断一次

发布时间:  2015-12-19 浏览次数:  407 下载次数:  0
问题描述

一、组网图如下:

二、问题描述

1、图中所示的两台路由器之间IBGP邻居在不断震荡,约30分钟一次;但是IGP协议ospf邻居关系稳定,无异常。

告警信息

Aug 13 2015 10:07:10+00:00 HX-RunFengGF-AR1220 %%01BGP/3/STATE_CHG_UPDOWN(l)[1392]:The status of the peer 1.1.1.2 changed from ESTABLISHED to IDLE. (InstanceName=Public, StateChangeReason=Hold Timer Expired) 

Aug 13 2015 10:36:59+00:00 HX-RunFengGF-AR1220 %%01BGP/3/STATE_CHG_UPDOWN(l)[1433]:The status of the peer 1.1.1.2 changed from ESTABLISHED to IDLE. (InstanceName=Public, StateChangeReason=Hold Timer Expired)

由于Hold Timer 超时导致IBGP邻居在震荡。

处理过程

一、问题怀疑点

由于IBGP邻居down是由于Hold Time Expired,断定两台路由器loopback0(两台路由器使用loopback0建立IBGP)间通信存在问题,在OSPF邻居状态正常情况下:怀疑是相互学习到对端loopback0接口地址的路由在震荡,至少一方存在这种情况。

二、问题确认方法

1、在AR1220路由器上使用命令ping -c 10000 -a 1.1.1.1 1.1.1.2,当出现丢包时候做下面操作

2、在AR1220、对端H3C XHBD.R路由器上分别使用命令查看对端loopback0地址路由的详细情况.

AR1220路由器命令:display ip routing-table 1.1.1.2 verbose

对端H3C XHBD.R路由器命令:display ip routing-table 1.1.1.1 verbose

三、采集到的信息如下

<GEM_RunFengGF_AR1220>ping -c 10000 -a 1.1.1.1 1.1.1.2 
    Reply from 1.1.1.2: bytes=56 Sequence=2128 ttl=255 time=53 ms
    Reply from 1.1.1.2: bytes=56 Sequence=2129 ttl=255 time=50 ms
    Request time out
    Request time out

1、AR1220路由器采集到的路由信息如下:

<GEM_RunFengGF_AR1220>dis ip routing-table 1.1.1.2 verbose
Route Flags: R - relay, D - download to fib
------------------------------------------------------------------------------
Routing Table : Public
Summary Count : 1

Destination: 1.1.1.2/32
     Protocol: O_ASE           Process ID: 1
   Preference: 150                   Cost: 1
      NextHop: 10.1.1.2       Neighbour: 0.0.0.0
        State: Active Adv             Age: 00h56m38s    //age为56分钟,不像刚震荡过
          Tag: 1                 Priority: medium
        Label: NULL               QoSInfo: 0x0
   IndirectID: 0x0             
RelayNextHop: 0.0.0.0          Interface: Serial1/0/1
     TunnelID: 0x71                 Flags:  D

2、对端H3C XHBD.R路由器采集到的路由信息如下

<QH-HXBD.R1>dis ip routing-table 1.1.1.2 verbose
Routing Table : Public
Summary Count : 2

  Destination: 1.1.1.1/32  //相同路由
     Protocol: OSPF            Process ID: 1
   Preference: 10                    Cost: 48
IpPrecedence:                    QosLcId:
      NextHop: 10.1.1.6      Interface: Serial3/2/1/58:0   //相同路由,两条不同出接口
    BkNextHop: 0.0.0.0        BkInterface:
  RelyNextHop: 0.0.0.0          Neighbor : 0.0.0.0
    Tunnel ID: 0x0                  Label: NULL
  BKTunnel ID: 0x0                BKLabel: NULL
        State: Active Adv             Age: 00h11m39s  //时间刚刷新(考虑到登陆设备等损耗时间)
          Tag: 0 

  Destination: 1.1.1.1/32  //相同路由
     Protocol: OSPF            Process ID: 1
   Preference: 10                    Cost: 48
IpPrecedence:                    QosLcId:
      NextHop: 10.1.1.2       Interface: Serial3/2/1/59:0  //相同路由,两条不同出接口,该接口为正确接口
    BkNextHop: 0.0.0.0        BkInterface:
  RelyNextHop: 0.0.0.0          Neighbor : 0.0.0.0
    Tunnel ID: 0xCEB7D              Label: NULL
  BKTunnel ID: 0x0                BKLabel: NULL
        State: Active Adv             Age: 00h11m39s  //时间刚刷新(考虑到登陆设备等损耗时间)
          Tag: 0

3、经确认H3C路由器Serial3/2/1/58:0接口连接是设备为新上线,正在调测中的设备,不正确的操作,导致路由学习异常。shutdown该接口后,IBGP邻居稳定,未再出现过震荡。

根因

一、不规范的操作,新上线设备在操作影响现场设备的正常运行。

二、从技术角度讲IBGP震荡原因为:H3C路由器从非法途径学习到AR1220路由器loopback0地址的路由。

解决方案

将H3C路由器Serial3/2/1/58:0接口下来的正在调测的设备断开,及shutdownH3C路由器Serial3/2/1/58:0接口。
建议与总结
1、路由震荡导致BGP邻居中断;路由震荡的根本原因是组网规划不合理、路由协议设计不合理。
2、从案例的体会:
A、对路由协议要有较深的理解,比如:协议邻居断开的原因要清楚。
B、排查的思路要清晰,把握关键点。

END