某IDC云计算网络异常,部分用户无法上线问题的处理过程

发布时间:  2012-12-25 浏览次数:  85 下载次数:  0
问题描述
某IDC云计算网络异常,部分用户无法上线,经抓包分析,存在丢包问题。部分业务,通过主S9300能ping通主机,但是通过备S9300不能ping通主机;主交换机通, 备不通。
告警信息
处理过程
1、现场直接更换单板,快速解决了问题。
更换单板后,目前组网场景下,不会再有问题,也不需要任何规避措施。
2、9306-1端口3/0/0端口的丢包输出CRC错包,这个跟介质相关,对端厂家更换光模块后解决。

根因
1、 ping不通问题故障原因确定为93-1 slot 8槽位单板出现异常,HG链路不稳定,出现FCS错包, 判断方法为,出现丢包时查看
[FJ_MW_IDF11-1_S9306-hidecmd]dis counter slave 
发现出现IRFCS错包即可断定HG链路不稳定。
93-1  8号槽出现出现问题时有以下统计。
IRFCS.hg2       :                   2,360              +2,360
IRFCS.hg4       :                   1,160              +1,160
这导致部分报文丢失,少部分表项没有下发。
出现这种情况只有可能是这块单板本身的链路出现了问题。有些IP地址能通的原因是因为在主控侧会进行负载分担,报文是要经过7号槽和8号槽来转发报文的,选择链路的依据是跟据源IP与目的IP进行HASH选录。到7号槽位(主用主控)的报文都能够顺利转发。 到8号槽的报文出现了丢弃。

2、 部分业务丢包的原因是由于对端绿盟厂家的介质导致。
判断方法为[Quidway]dis int GigabitEthernet 3/0/0 查看端口统计,是否有CRC错包。
出现问题时3/0/0端口有大量错包。
Input:  16495426 packets, 14728401367 bytes
  Unicast:      15731942,  Multicast:   475686
  Broadcast:       51741,  Jumbo:            0
  Total Error:    241266,  Discard:          0

  CRC:            233147,  Giants:           0
  Jabbers:          2910,  Throttles:        0
  Runts:               0,  DropEvents:       0
  Alignments:          0,  Symbols:       5209
  Ignoreds:            0,  Frames:           0
建议与总结

END