S5700下挂多台服务器和PC,PC-ping服务器发生不规律丢包

发布时间:  2014-11-23 浏览次数:  310 下载次数:  0
问题描述
客户的S5700交换机直连下挂多台服务器和一台测试用PC,PC去ping服务器,出现部分服务器丢包的情况,且丢包服务器随接口变化而变化,ping丢包的过程还不时出现接口down/up的现象。
处理过程
怀疑丢包和接口反复UP/DOWN有关。
S1—确认客户设备型号、版本、拓扑、故障现象:S5700-SI交换机;V2R5版本;PC(百兆网卡)和10台服务器(百兆/千兆自适应)均和S5700千兆电口直连;现象如上所述;
S2—查看接口状态,自协商模式,均为1000M,全双工;STP状态变化会导致接口状态变化,建议客户查看STP和接口收敛状态。全局下去使能STP,现象依旧;
S3—告知客户display logbuffer和dis diag查看信息,看到有多个接口反复UP/DOWN,但是没有其他的信息;
S4—display interface xxx查看各个接口的统计信息,有大量的inputerror和CRC校验错误,但是由于不能确定统计的时间段,让客户reset counter 重新统计;一天后,查看客户的diag信息,接口依旧有大量的inputerror和CRC校验错误,这个和线缆质量或对端设备有关系,建议客户更换线缆试试;
S5—所有线缆都更换成超五类线,问题现象依旧;怀疑是服务器的问题;
S6—让客户PC直连各个服务器ping,两端都自动协商成了100M全双工,部分服务器长ping一千个包只出现一个丢包,部分服务器出现较多丢包;PC直连57,两端协商成了100M全双工,长ping没有出现丢包;至此排查出部分服务器的网卡确实有明显的问题,建议客户更换。然后让客户尝试调换单个接口下挂的服务器,在允许的条件下只挂一台服务器和PC,还是出现丢包;
S7—至此,怀疑还是客户的服务器网卡和交换机协商有问题。建议客户找了一台千兆网卡的pc接到5700的各个端口测试,均协商为1000M全双工模式,且长ping没有丢包的现象,端口状态也一直是up/up。
S8 —最后,受S6中pc和服务器协商100M不丢包启发,将交换机和服务器均手动强制为100M全双工,PC再长ping服务器,没有再出现丢包了。
S8 —由此可见,当交换机和服务器自动协商全双工1000M时,丢包;手动强制全双工100M时,正常,且结合千兆网卡的pc接到5700的各个端口测试,均协商为1000M全双工模式,且长ping没有丢包,排查出可能是服务器的网卡协商1000M有问题导致交换机端口出现反复up/down,建议客户更换网卡。
根因
当交换机和服务器自动协商全双工1000M时,丢包;手动强制全双工100M时,正常,且结合千兆网卡的pc接到5700的各个端口测试,均协商为1000M全双工模式,且长ping没有丢包,将交换机和服务器均手动强制为100M全双工,PC再长ping服务器,没有再出现丢包了。
排查出可能是服务器的网卡协商1000M有问题导致交换机端口出现反复up/down,建议客户更换网卡。
解决方案
将交换机和服务器均手动强制为100M全双工,PC再长ping服务器,没有再出现丢包了。
排查出可能是服务器的网卡协商1000M有问题导致交换机端口出现反复up/down,建议客户更换网卡。
建议与总结
涉及我方华为设备对接常用处理思路:

光口不UP 处理思路:
     1. display interface xxx看接口是否shutdown;
     2 .是否Error-down (57,93,CE交换机等);
     3 .是否是华为认证光模块;
     4 .查看光功率display transceiver interface xxx  verbose查看收发光功率是否在正常范围;
     5 .两端协商模式是否自协商,两端是否协商一致的;
     6 .自环环回测试,看是否光模块的故障。若能up,则可以确定设备和光模块没有问题,问题可
         能出在对方设备上或者光链路上;
     7. 两端光模块数据要相同,例如波长等;
     8 .光纤和光模块的单模多模要对应一致;
     9 .替换光模块测试;
     10.个别厂家的设备跟我司设备互连可能自协商不能link up,这时将两端端口都尝试设置成
           强制方式尝试;
     11.建议更换光模块;

END