S9700产品S9712(V200R001C00SPC300版本)ARP报文跨板转发出现故障

发布时间:  2015-06-10 浏览次数:  313 下载次数:  10
问题描述

杭研一期桌面云CNA节点hghvdi043cna172.20.6.91200b-c79b-d0cf)与新扩容的存储业务ip 172.20.4.12230d1-7e7c-604d)不通,到该存储设备的其他业务ip正常;同时其他CNA节点到该IP正常;涉及的网络拓扑如下:

处理过程

分析与对策

1、            因为存储设备是新扩容,检查存储设备的配置,及与S5752交换机的连线,没有发现问题。

2、            检查S5752交换机的VLAN配置以及上联的跳线,没有发现问题。

3、            杭研以前出现过类似情况,当时发现是服务器上联的S6724交换机芯片的问题,更换服务器上联到S6724的端口即可解决;故将该服务器上联S6724交换机的端口由XG0/0/7XG1/0/7更换为XG0/0/18XG1/0/18;更换之后,故障未解决,将端口还原为原来的端口。

4、            关闭S6724下连hghvdi043cnaXG1/0/7端口,确保流量从XG0/0/7上面走,同时对XG0/0/7端口做端口镜像进行抓包查看,发现有ARP报文发出,但无回包;

5、            S6724上行的端口XG0/0/20进行端口镜像并抓包,发现该端口也发出了ARP报文;

6、            分别对存储设备上连的S5752交换机的上连端口和下联端口进行端口镜像与抓包,发现均有ARP回包,故确定ARP报文是在回来的时候被丢弃。

7、            S9712的对应端口(XG5/0/1XG7/0/11)进行端口镜像并抓包,发现无法抓到报文;故联系张晋奎同事对S9712的端口匹配MAC地址进行流统(rule permit source-mac 30d1-7e7c-604d destination-mac  200b-c79b-d0cf);发现XG7/0/11inboundoutbound方向都有匹配,而XG5/0/1没有匹配,故确定ARP报文是S9712跨板转发时被丢弃。

8、            研发同事林峰对该流量进行重定向,重定向设置之后,hghvdi043cna依然不能访问该存储业务IP 172.20.4.122

9、            最终确认是报文跨板转发的时候,S9712备用主控板哈希链路问题导致回传的arp报文被丢弃,属于硬件问题,故拔下S9712备用主控板,更换备件。

10、        换下来的主控板返回研发分析故障原因。

END