华为S9312交换机下挂S5328交换机业务出现用户上网慢故障

发布时间:  2015-09-16 浏览次数:  1309 下载次数:  0
问题描述

1、现网设备版本信息如下:
 设备名称          设备型号    现网版本及补丁
核心B1_S9312_00    S9300       V100R002C00SPC200+s9300v100r002sph020
核心B1_S9312_01    S9300       V100R002C00SPC200+s9300v100r002sph020
汇聚S5328          S5300       S5300EI-V100R005C01+no patch

2、故障现象:当客户PC接入网络后(PC业务段为192.168.3.0/24段,服务器地址为172.16.9.1/24),客户反馈打开办公应用软件比如挂号软件会不定时出现卡顿、反应慢的问题。

3、网络拓扑及概述如下:

     

        现网部署2*S9312做业务网关核心,同时部署VRRP实现网关冗余。S9312下挂1*S5328做汇聚交换机。汇聚S5328交换机的XG0/1/1(smart-link组的active端口)互联到s9312_01(VRRP状态为备)的G1/0/2端口,同时XG0/1/2(smart-link 的inactive端口)到s9312_00(VRRP状态为主)的G1/0/2端口,如上图。

告警信息

在交换机S5328的互联接口上存在大量的CRC校验错误信息,如下红色显示:

Description:huijuS5328
Switch Port,PVID :    1,The Maximum Frame Length is 1600
IP Sending Frames' Format is PKTFMT_ETHNT_2, Hardware address is 0025-9efb-ac81
Port Mode: COMMON FIBER
Speed : 10000,  Loopback: NONE
Duplex: FULL,  Negotiation: DISABLE
Last 300 seconds input rate 5072 bits/sec, 6 packets/sec
Last 300 seconds output rate 176 bits/sec, 0 packets/sec
Input peak rate 1598840 bits/sec,Record time: 2014-07-23 11:35:06
Output peak rate 145328 bits/sec,Record time: 2014-07-23 11:41:03
Input:  72119376 packets, 14743537895 bytes
Unicast        :             9330953,Multicast          :            46252581
Broadcast      :            16535842,Jumbo              :                   0
CRC            :              912345,Giants             :                   0
Jabbers        :                   0,Throttles          :                   0
Runts          :                   0,DropEvents         :                   0
Alignments     :                   0,Symbols            :                   0
Ignoreds       :                   0,Frames             :                   0
Discard        :                   0,Total Error        :              912345
Output:  9183362 packets, 1100225790 bytes
Unicast        :             8586737,Multicast          :              459712
Broadcast      :              136913,Jumbo              :                   0
Collisions     :                   0,Deferreds          :                   0
Late Collisions:                   0,ExcessiveCollisions:                   0
Buffers Purged :                   0
Discard        :                   0,Total Error        :                   0
    Input bandwidth utilization threshold : 100.00%
    Output bandwidth utilization threshold: 100.00%
    Input bandwidth utilization  : 0.01%
    Output bandwidth utilization : 0.01%

处理过程

1、根据客户反馈的PC终端打开办公软件不定时出现卡顿、反应慢的问题和客户沟通,并找多台PC测试验证故障现象,测试的终端出现此类问题,无法确定是客户办公软件问题还是网络问题。

2、在故障现象出现时在PC端通过ping测试验证网络的质量,结果ping出现大量的丢包,初步判断网络存在丢包问题,基本排除终端办公软件的问题。

3、由于网络出现丢包,于是在在S9312上基于源和目的配置CBQ做流量统计,判断丢包发生的位置,流量统计配置如下:

#
acl number 3000
rule permit icmp source 192.168.3.2 0 destination 172.16.9.1 0
rule permit icmp source 172.16.9.1 0 destination  192.168.3.2 0
#
traffic classifier tongji
  if-match acl 3000
#
traffic behavior tongji
statistic enable
#
traffic policy tongji
classifier tongji behavior tongji
#
interface GigabitEthernet1/0/2
traffic-policy tongji inbound
traffic-policy tongji outbound
#
通过在PC端ping测试,并在交换机上执行如下命令,进行流量统计查看:
isplay traffic policy statistics interface GigabitEthernet 1/0/1 inbound
display traffic policy statistics interface GigabitEthernet 1/0/1 outbound
通过分析对比,结果发现丢包出现在下行的汇聚交换机S5328上,同时查看S5328的互联接口,发现出现大量CRC错误信息,初步判定存在物理链路质量问题。

4、 和客户沟通,在汇聚S5328原有的物理链路基础上,新加一条尾纤连接到备核心S9312,排查是否物理连通性质量问题,同时排查其他可能引起网络丢包的可能原因。

5、进一步查看设备配置,发现在汇聚S5328上Smart-link 组配置异常,主备端口角色倒置,这样会导致网络流量转发不均衡,也有可能引起网络拥塞,导致上网慢的现象。

6、经和客户沟通,在客户下班时间段进行新增链路替换,同时调整Smart-link 组配置操作,待物理链路up之后且Smart-link组端口角色正常后,进行业务测试。通过ping和多台电脑打开办公软件测试,丢包和卡顿反应慢的问题故障排除。

7、经过两天业务观察运行,业务一致正常,故障再未出现,基本定位为物理链路和配置问题。

根因
客户网络出现打开办公软件卡顿,ping测试丢包的原因为:现网存在质量较差的物理互联链路且Smart-group 组成员端口角色配置主备倒置引起。
解决方案
1:更换质量较好的物理链路资源。

2:规划好网络时,严格检查配置的准确性,规范性,同时多做业务测试和验证。
建议与总结
当现网出现丢包或上网慢时:先确定故障的现象和范围,通过流量统计或替换法等多种方法,综合考虑,逐步逐段去排查,找出解决问题的方法,并部署验证,到问题解决,使客户满意。

END