由于路由反射器集群冲突导致BGP学不到新反射器反射过来的路由

发布时间:  2013-06-04 浏览次数:  110 下载次数:  9
问题描述
某IPRAN改造项目,组网如下,城域网新增两台NE40E-X8如图中MR1,MR2作为新的城域出口到省干,版本为 V600R005C00SPC900。
 
新增的MR同时作为新的BGP路由反射器RR,代替原BGP的RR:GN1, GN2(GN不再作为BGP RR)。割接老的城域出口节点GN1,GN2相关业务到新的出口MR1,MR2上,并新增3G相关业务到此城域网上。采用BGP/MPLS L3VPN承载3G业务,GN1, GN2,X3作为城域内的PE,分别接入友商E公司的MGW和GS Server。

现发现MGW2无法Ping通GS1,发现PE GN2上学不到PE X3发过来的到GS1的路由。但GN1可以学到。现象如下:
MGW2>ping 10.1.143.18
Ping 10.1.143.18: 32 data bytes, Press Ctrl_C to break
Request timeout!
Request timeout!
Request timeout!
Request timeout!
Request timeout!
--- 10.1.143.18 ping statistics ---
  5 packet(s) transmitted
  0 packet(s) received
  100.00% packet loss
<NE80E-PS-GN2>disp ip rout vpn 3G_IUPS
Route Flags: R - relay, D - download to fib
------------------------------------------------------------------------------
Routing Tables: 3G_IUPS
         Destinations : 2        Routes : 2        
Destination/Mask    Proto   Pre  Cost      Flags NextHop         Interface
     10.1.143.8/30  Direct  0    0           D   10.1.143.9      GigabitEthernet6/0/1
     10.1.143.9/32  Direct  0    0           D   127.0.0.1       GigabitEthernet6/0/1
<NE80E-PS-GN1>disp ip rou vpn 3G_IUPS
Route Flags: R - relay, D - download to fib
------------------------------------------------------------------------------
Routing Tables: 3G_IUPS
         Destinations : 4        Routes : 4        
Destination/Mask    Proto   Pre  Cost      Flags NextHop         Interface
     10.1.143.0/30  Direct  0    0           D   10.1.143.1      GigabitEthernet6/0/1
     10.1.143.1/32  Direct  0    0           D   127.0.0.1       GigabitEthernet6/0/1
     10.1.143.8/30  IBGP    255  0          RD   10.243.87.57     GigabitEthernet6/0/10
    10.1.143.16/30  IBGP    255  0          RD   10.243.86.246   GigabitEthernet6/0/2







友商E的MGW2连不上GS Server1报错,NE40E上无告警。







处理过程
可能原因如下:
1,GS1的路由没有引入3G VPN。
排除,因为MGW1可以ping到GS1。
2,GS1的路由没有发布到GN2。
3,GN2学习GS1的路由失败。
3-1,X3上VPN发布路由策略出错。
3-2,GN2上BGP邻居状态异常。
3-3,GN2上VPN路由接收策略出错。
3-4,GN2上BGP接收路由出错。

1,查看GN2上没有到GS1的路由。
[NE80E-PS-GN2]disp ip rout vpn 3G_IUPS 10.1.143.18
[NE80E-PS-GN2]
2,检查BGP vpnv4邻居状态,GN2与两个RR MR1,MR2间邻居状态正常。
[NE80E-PS-GN2]disp bgp vpnv4 all peer
 BGP local router ID : 10.243.87.57
 Local AS number : 64816
 Total number of peers : 2                Peers in established state : 2
  Peer            V          AS  MsgRcvd  MsgSent  OutQ  Up/Down       State PrefRcv
  10.243.86.247   4       64816       18       14     0 00:10:22 Established       0
  10.243.86.248   4       64816       17       13     0 00:09:49 Established       0
[NE80E-PS-GN2]
3,检查BGP从RR学到的路由信息,发现没有学到任何路由信息。
[NE80E-PS-GN2]disp bgp vpnv4 all routing-table peer 10.243.86.247 received-routes
[NE80E-PS-GN2]
[NE80E-PS-GN2]disp bgp vpnv4 all routing-table peer 10.243.86.248 received-routes 
[NE80E-PS-GN2]
4,检查VPN路由策略,发现没有限制。X3上亦无限制。
[NE80E-PS-GN2]dis cu

#
ip vpn-instance 3G_IUPS
 ipv4-family
  route-distinguisher 64816:332030
  vpn-target 64816:232010 64816:232100 export-extcommunity
  vpn-target 64816:232010 64816:232100 import-extcommunity
#
5,检查BGP配置,发现GN2下旧的路由反射器配置没有清除, 当GN2收到新的RR反射过来的路由信息时,会比较cluster-id, 发现相同便丢弃此路由。
[HBWH-XGL-NE80E-PS-GN2]dis cu conf bgp
#
bgp 64816
 router-id 10.243.87.57
 peer 10.243.86.247 as-number 64816
 peer 10.243.86.247 connect-interface LoopBack0
 peer 10.243.86.248 as-number 64816
 peer 10.243.86.248 connect-interface LoopBack0
 #
 ipv4-family unicast
  undo synchronization
  peer 10.243.86.247 enable
  peer 10.243.86.248 enable
 #
 ipv4-family vpnv4
  reflector cluster-id 20
  undo policy vpn-target
  peer 10.243.86.247 enable
  peer 10.243.86.248 enable
 #
 ipv4-family vpn-instance 3G_IUPS
  import-route direct
#
至此问题原因找到。






根因

RR和接收设备的cluster-id配置成一致了。

解决方案

修改新部署的设备的clust-id。

建议与总结
1, 迁移BGP RR时要检查对整个AS的影响。
2.,对于成对的RR,迁移时相关配置在两个旧的RR上都要清除干净,并在新的RR上配置完整。





END