某局点S5700-EI交换机一个网段业务不通故障分析报告

发布时间:  2016-12-23 浏览次数:  115 下载次数:  0
问题描述

拓扑图:

          多台PC---------S5700_EI(网关)-------- S5700_EI------多台服务器

S5700_EIvlan 100: 192.192.0.X/22网段用户ping 网关和服务器时通时不通,网关ping服务器和pc也是一样现象,导致pc访问服务器失败。

告警信息

处理过程

1、第一时间采集设备系统日志分析,从日志中发现从Nov  5 2014 00:45:29+08:00开始就有arp-requestarp-miss攻击的告警,说明设备一直在收到大量的arp协议报文的攻击,已经超过设备cpu处理arp协议报文的门限。

2、在系统日志Nov  5 2014 13:35:28+08:00 设备开启了端口防攻击功能,设备主动将arp超过门限的部分进行丢弃,这直接会导致设备学习arp失败,引起该广播域中的主机ping 网关失败等问题。

No5201413:35:28+08:00KF_C_Old_Core_SW %%01SECE/4/PORT_ATTACK_OCCUR(l)[6]:Auto port-defend started.(SourceAttackInterface=GigabitEthernet0/0/1, AttackProtocol=ARP-REQUEST, VLAN=100)

3、S5700_EI下带接入层交换机属于100vlan的端口抓包分析,发现有两个端口的arp请求特别多,初步分析是这两个端口下的终端攻击设备导致。

4、拔出两个端口网线观察一会,发现设备cpu使用率下降了,并且vlan 100的业务访问正常,业务恢复。 

根因

设备收到大量的arp协议报文的攻击,超过设备cpu处理arp协议报文的门限。

解决方案

通过抓包方法抓到攻击源设备,物理上禁止攻击源解决问题。

该故障属于典型的arp攻击问题,华为设备在V200R003版本后端口防攻击默认是开启的,可以使用UNDO 命令关闭。 但是建议不关闭,因为二层广播报文过多,最终的解决办法是找到攻击源,而不是在网络设备上放大处理能力解决,网络侧放大协议报文处理门限只会造成cpu一直攀高,严重情况导致设备cpu占满,影响整个设备的业务。

目前业界对于arp广播攻击问题,在网络设备测是没有根本的彻底解决办法,都是通过查找到攻击源后限制攻击才能解决。 华为设备也是一样,华为交换机第一时间可以通过log日志分析是否arp是否攻击,哪个网段、vlan、端口收到攻击,具体的攻击源需要通过在下端通过抓包等方法确认。 

END