S7700交换机组网部分终端上不了网故障排查

发布时间:  2016-05-31 浏览次数:  248 下载次数:  0
问题描述

两台S7700交换机配置VRRP,所有的流量主要走S3700、主S7700交换机、主H3C路由器上行至省分行,组网情况如下:

故障现象:部分终端访问省分行的服务器特别慢,而同网段的其他终端访问又正常。

 

处理过程
对此问题的分析,选择了几个特定的地址进行测试,选择的地址如下:
测试服务器地址:11.X.17.1
测试客户端IP地址分别为11.X.161.104以及11.X.161.106。
两台测试用的客户端连接在S3700,网关位于S7700交换机,服务器位于上级单位。
1. 首先抓取了两台S7700以及S3700交换机的配置分析,配置正确;
2. 在两台客户机上tracert 11.X.17.1服务器地址,路径一致;
3. 在两台客户机上ping 11.X.17.1服务器地址,均可以正常的ping通,有时11.X.161.104的延时会明显大于11.X.161.106;
4. 在两台客户机同时通过http访问11.X.17.1服务器,11.X.161.104无法打开网页,11.X.161.106正常;
5. 将备S7700交换机关机,故障现象消除,两台客户端均可以通过http正常访问服务器;
6. 将两台客户的IP地址对调,发现故障跟随IP地址走。
由于VRRP的主在主S7700交换机,流量上行走主链路到达服务器,通过上面的测试猜测报文在回包的时候被丢到了备S7700交换机。
7. 在主S7700交换机以及备S7700交换机的上行接口同时抓包,发现如下的现象:
a. 主S7700交换机G3/0/12接口同时抓取到了两台客户端ping服务器、http访问服务器的报文;
b. 备S7700交换机G3/0/12接口只抓到客户端的icmp reply报文,无任何请求报文, 并且出现大量的TCP重传,备交换机的抓包截图如下:

由此可以明确数据上行的时候全部走的主链路、数据包回程的时候部分流量走到了备交换机,交换机本身只做数据包的转发。通过分析网络结构,怀疑出现此现象的原因在H3C路由器及其以上的链路、上级机构路由器回程路由存在问题。20日继续做如下测试:
8. 将备H3X路由器关机,网络正常;
9. 将备H3X路由器上行链路断开,只保留主H3X路由器上行链路,故障恢复;
10. 将主H3X路由器上行链路断开,只保留备H3X路由器上行链路,故障复现;
同时现场了解到的情况,备H3X路由器上行接口带宽为2M线路,客户的网络结构为主备,而不是负载,因此理论上讲备线路上不应该有回程报文,同时即使回程报文进行了负载,那么当数据全部走备线路回应的时候应该也是正常的,而实际上只有备线路仍然存在故障。综合上面的测试得出如下的结论:
1. 华为交换机S7700只根据上下行设备转发过来的数据进行转发,在该网络环境中工作正常;
2. 上级单位的设备在处理报文的回程转发时存在异常,需要协调上级单位进行排查;
3. 备H3C路由器的上行线路存在问题需要进一步排查。

根因

1. 省分行的下联路由器到市分行的路由选路存在问题;

2. 联通的线路存在问题。

解决方案

1. 在省分行调整选路;

2. 联通的线路带宽不够,增加带宽。

建议与总结
对于这类网络涉及面较大的问题建议理清故障现象,从一个故障现象找到突破口;从一个突破口再扩展到整网的排查。

END