由于BFD配置错误触发ARP震荡问题

发布时间:  2011-11-28 浏览次数:  120 下载次数:  0
问题描述
某运营商网络拓扑如下:


在其CM-LSW 接口1/0/4下挂Node B 出现性能下降




处理过程
由于配置BFD时出接口指定错误,造成设备定期向错误的端口发送arp请求而生成假表项,造成丢包。
根因
N/A
解决方案
1 从NodeB ping RNC 发现有大量的丢包,怀疑NodeB性能下降和丢包有关
2 通过接口配置统计计数进行ping包测试,确认是连接RNC的MM LSW出现丢包,具体方法见下图:


3 查看MM LSW 的arp表项发现故障发生时设备上RNC(10.5.85.65)的arp表项存在一条假表项:
10.5.85.65      Incomplete      0         D-0         Vlanif147                   147/-

正常时表项为:
10.5.85.65      286e-d493-c91e  20        D-0         Eth-Trunk0         148/-

此假表项出口为vlan147,而实际连接RNC的出接口为vlan 148,怀疑设备存在主动向vlanif 147发送报文的行为,由于vlan147不属于出端口所以生成此假表项。

4 检查设备配置,发现存在错误的bfd配置:
#
bfd mm-rnc-4 bind peer-ip 10.5.85.65 interface Vlanif147 source-ip 10.5.85.66
 discriminator local 51
 discriminator remote 15
 min-tx-interval 50
 min-rx-interval 50
 commit
#

在该条配置下,bfd会定时向vlanif 147的10.5.85.65发送bfd报文,由于不存在该条ARP,因此设备会频繁生成假表项,触发arp请求,导致故障

5 删除该条配置后,故障消失
建议与总结
1 故障定位时通过配置统计计数或抓包的方法进行快速的故障定界

2 对于配置数据,务必做到严格检查,并进行充分的验证。

END