因网络中存在异常测试流量导致CX600下挂核心网业务中断

发布时间:  2012-07-27 浏览次数:  112 下载次数:  0
问题描述
现场反馈CX600下挂软交换设备出现CPU过载,业务中断的情况,并且出现问题后自动恢复。该问题每天几乎定时出现,持续半个小时左右自行消失。
简单拓扑如下:骨干网络����CX600����交换机����核心网设备
告警信息

处理过程
1、在软交换连接的交换机上查看接口出方向流量,发现流量很大,如下:
[QCY_HU_SIG_LSW1]dis int eth 1/0/1
 Ethernet1/0/1 current state : UP
……
 Port link-type: access
  Tagged   VLAN ID : none
  Untagged VLAN ID : 1
 Last 300 seconds input:  3798 packets/sec 403540 bytes/sec
 Last 300 seconds output:  78910 packets/sec 10890810 bytes/sec
……
但是同一个vlan的其它接口,并没有大的output流量,同时发现交换机上行到CX600的接口有较大的input流量,基本排除环路的可能性。
2、在连接交换机的CX600上查看接口的出方向流量,发现也非常大,如下:
<QCYHUAS000>disp interface g1/1/0                                               
GigabitEthernet1/1/0 current state : UP                                         
……                                  
Statistics last cleared:2010-03-01 16:38:26                                     
    Last 300 seconds input rate: 2713928 bits/sec, 3167 packets/sec             
    Last 300 seconds output rate: 87901056 bits/sec, 79599 packets/sec          
……
3、在业务正常情况下查看CX600出方向的流量,和出问题时相比,小很多,如下:
disp interface g1/1/0                                                           
GigabitEthernet1/1/0 current state : UP                                         
Line protocol current state : UP                                                
……                             
    Last 300 seconds input rate: 194072 bits/sec, 147 packets/sec               
    Last 300 seconds output rate: 199368 bits/sec, 161 packets/sec              
 ……
从上述现象,可以证明在核心网业务异常时间段,确实从CX600上转发了大量流量至交换机,进而到了核心网设备软交换,导致软交换业务CPU过载。
4、观察CX600的上行口,发现在出问题时,从上行的PE设备收到了远远大于平时的流量,如下:
<QCYHUAS000>dis interface GigabitEthernet 1/0/2
GigabitEthernet1/0/2 current state : UP
……
Last 300 seconds input rate: 254141776 bits/sec, 224414 packets/sec
正常状态下,该接口入方向流量只有每秒10000包左右。
    Last 300 seconds output rate: 6607456 bits/sec, 3761 packets/sec
   ……
同时在出问题时,在CX600下挂的交换机抓包,发现大部分报文来自于IP地址10.213.48.107,在CX600查看去向该IP地址的路由,也可以发现来自于CX600上行的PE
通过上述分析,可以证明出问题时大量异常流量来自于CX600上行的PE设备,最终经客户排查,发现每天在远端有个局点做测试,使得测试流量进入网络,而影响了现网业务。
根因
因同一问题每天定时出现,并且每次均能自行恢复,初步判断应该是外界因素导致,如果是产品自身问题,故障一般不会自行恢复。另外,还有可能现网中临时出现环路导致问题产生。
建议与总结

END