S9706交换机ARP表无法更新

发布时间:  2014-08-13 浏览次数:  1580 下载次数:  0
问题描述
1、故障类型:ARP表的更新失败
2、现象描述:
1)拓扑图
                                                                                                                                                                                                                     2)网络架构描述
由组成堆叠的2台S6700交换机和部署HA的2台友商防火墙(透明模式)构架成的二层网络,接入客户已有的汇聚交换机S9706上,与一台NE40路由器相连与外界(电信和联通)通信。
2台S9706组建VRRP,与部署HA的2台友商防火墙连接(主VRRP的S9706-1连接主友商主防火墙(FW-1),备VRRP的S9706-2与友备商防火墙(FW-2)连接),并且VRRP组不对该链接启用Trace;此次部署的所有数据中心的服务器以及设备管理地址的网关均设置在S9706上。
2台S6700通过业务口组成一个堆叠组,成为此次二层架构组网的二层骨干,为所有数据中心服务器提供接入。
1台S5700下挂于S6700下,用于提供服务器等设备带外管理接口的接入,实现远程的访问、控制、维护。
2台友商防火墙设备组成HA,通过透明模式部署在新组网架构的二层出口,用于实现二层透传的同时保障数据中心的受控安全访问
2台友商负载均衡部署主备模式旁挂在S6700上,为某些应用提供负载的访问。
数据中心服务器根据不同业务划分不同网段:如下面介绍的Server-1和Server-22台服务器分别属于不同VLAN
3)现象介绍:
 在只部署一台或部署2台做HA(热备)的友商防火墙情况下,Server-1 ping Server-2均可PING的通
 当把友商FW-1(主)的上联线路断掉后,启用HA的友商防火墙,发生主备切换(备注:①友商防火墙在HA组往下,备防火墙只接受数据包,不发送、转发、应答数据帧/包;②主备切换时, 原友商主防火墙变为备份时候,将瞬间把设备上所有UP的端口,执行DOWN、UP一个动作过程,目的为了与其相连的设备立即删除MAC和ARP表,重新与新主防火墙建立MAC和ARP表。以上2点备注信息由友商厂家工程师提供,通过在友商备防火墙(FW-2)上的端口抓包确认备注①结论,通过在S6700查看动态学习的MAC表中对于的端口确认备注②结论)
 Server-1 PING Server-2不通
 此时查看的S9706-1交换机(主VRRP)上的关于Server-1 和Server-2的ARP表项,发现是从S9706-2(备VRRP)上学到,但是在的S9706-2(备VRRP)上查看ARP表,确没有关于Server-1 和Server-2的ARP表项
 在Server-1 和Server-2上清除ARP表后,问题和现象依旧
 但是Server-1上PING一下网关后(网关一直可以PING通),Server-1 PING Server-2马上PING通
 在S9706-1或者S9706-2上清除ARP表后,Server-1 PING Server-2立即PING通
告警信息
处理过程
4、处理过程:
2台S9706 IOS均为V100R003低版本,需升级IOS到最新,但是由于客户的2台S9706承载了业务数据,升级IOS需申请流程,更不允许在未申请的情况下重启设备,故为解决该问题,经与客户讨论,最终决定临时针对该IOS打补丁,补丁为V100R003SPH022(热补丁),加载完马上生效,无需重启设备
根因
3、原因分析
1)分析方法(主要定位问题的节点所在处):
①在2台友商防火墙(FW-1和FW-2)的下联(与S6700相连)端口与上联(与S9706相连)端口上用抓包软件抓包,确认友商设备是否收到或者转发ARP和ICMP报文。
②在备VRRP的S9706-2下联(与友商备防火墙相连)端口做流量统计,观察该接口IN和OUT方向的ICMP包增量情况,ICMP的流量统计配置过程及查看方法如下:
 定义流:
acl 3000
rule permit icmp source 192.168.1.1(Server-1) 0 destination 192.168.1.2192.168.1.1(Server-2) 0
traffic classifier 1
if-match acl 3000
 定义行为:
traffic behavior 2
statistic enable
 定义流量统计策略:
traffic policy 3
classifier 1 behavior 2
 将流量统计策略应用在接口上(备VRRP的S9706-2下联口):
int g2/0/15
traffic-policy 3 inbound
traffic-policy 3 outbound
 查看流量统计结果
display traffic policy statistics interface g2/0/15 inbound
display traffic policy statistics interface g2/0/15 outbound
2)分析现象
 拔掉主VRRP的S9706-1交换机与友商FW-1互联的连线后,在友商FW-2上的上联(连接S9706-2)和下联(连接S6700)端口上抓包情况如下:下联端口收到Server-1 PING Server-2的ICMP请求报文;上联端口转发转并此ICMP请求
 在备VRRP的S9706-2的下联端口IN和OUT方向查看ICMP流量统计结果,发现该接口IN方向的ICMP报文统计在增加,但是该接口OUT方向的ICMP报文统计保持不变
 继续在友商FW-2上的上联(连接S9706-2)和下联(连接S6700)端口上观察抓包情况,但是未收到S9706-1或者S9706-2发起的任何ARP请求
 在Server-1服务器上清除ARP表,然后在友商FW-2上的再次抓包,情况如下,下联端口收到Server-1服务器的ARP请求报文;上联端口转发此ARP报文,但是始终未收到上联S9706-1或者S9302-2的ARP应答                                                                                                                                                                                                                3)分析结果
 友商FW-2接收并转发Server-1 PING Server-2的ICMP请求报文,但是S9706-2下联端口(连接友商FW-2)虽然接受此ICMP请求报文,但是未将此ICMP请求报文转发出去,也无向外发送ARP请求报文
 友商FW-2接收并转发Server-1的ARP请求报文,但是一直未收到S9706-1或者S9302-2的ARP应答
4)分析结论
S9706交换机出接口和arp地址映射表没有对应刷新导致此现象的发生

建议与总结
5、建议与总结
1)在版本信息为V100R003时,遇到ARP表更新失败问题,建议升级IOS到最新
2)补丁V100R003SPH022,只能解决源IP地址不变的情况下,MAC地址也不变时,而导致S9706的ARP表更新失败的问题,而在源IP地址不变的情况下,源MAC地址变化后, S9706的ARP表项更新问题依旧存在,如此次项目中有关友商负载均衡的热备切换失败问题:2台友商负载均衡设备做热备,当主备切换后,其浮动IP地址(此浮动地址用于对外访问)切换至备机(负载均衡-2)上,此时备机处于活动状态,即工作状态,由于浮动IP地址移至备机上后,该IP地址对应的MAC地址从主机(负载均衡-1)变为备机(负载均衡-2),为了使同网段内的设备更新ARP表项,故备机会主动发送ARP更新报文(此特性厂家工程师通过抓包确认),但是在S9706的ARP表中依旧保存着旧的MAC地址。友商负载均衡此问题通过将浮动IP地址对应的2台设备的MAC地址改为一样后,问题便解决,关于升级IOS版本建议已给客户提出。

END