NE20E-S8下联设备因运营商设备发PAUSE帧造成网络中断

发布时间:  2016-11-21 浏览次数:  497 下载次数:  0
问题描述

 省中心2台NE20E-S8和地市2台AR3260之间为口字型组网结构。NE20E-S8和AR3260之间有2条链路,分别是联通和电信。联通为主用链路,电信为备用链路

省中心2台NE20E-S8和地市2台AR3260之间为口字型组网结构。NE20E-S8和AR3260之间有2条链路,分别是联通和电信。联通为主用链路,电信为备用链路。业务部门反馈省中心和地市之间的业务互访不通。经检查互联接口状态为UP,无错包,logbuffer中无异常信息,BGP邻居状态正常,从NE20E-S8 ping  地市AR3260 loopback接口无法ping通,NE20E-S8 ping AR3260直连可以ping通。


告警信息

设备无告警信息。

处理过程

1.一键式诊断信息采集 (获取设备诊断信息)

2.在NE20E-S8设备的诊断视图下采集信息:

display fe slot 9 fe-id 0 statistics discard

display fe slot 9 fe-id 0 statistics to-cp

display fe slot 10 fe-id 0 statistics discard

display fe slot 10 fe-id 0 statisitcs to-cp

查看采集的诊断信息,省中心与地市互联的故障端口G0/1/0口下收到大量的pause帧,且该端口收到的pause帧的数量不断增加。

GigabitEthernet0/1/0 current state : UP
 (ifindex: 6)

Line protocol current state : DOWN

Link quality grade : GOOD

Description: Route Port,The Maximum Transmit Unit is
 1500

Internet protocol processing : disabled


IP Sending Frames' Format is
 PKTFMT_ETHNT_2, Hardware address is 3400-a3d5-cb1e

The Vendor PN is PLRXPL-VI-S24-HW


The Vendor Name is
 JDSU           

Port BW: 1G, Transceiver max BW: 1G,
 Transceiver Mode: MultiMode

WaveLength: 850nm, Transmission Distance:
 500m

Rx Optical Power:  -5.98dBm, Normal
 range: [-16.989,  0.000]dBm

Tx Optical Power:  -5.05dBm, Normal
 range: [-9.500,  0.000]dBm

Loopback:none, full-duplex mode,
 negotiation: negotiation disable, Pause Flowcontrol:Receive Enable and Send
 Enable

Last physical up time   :
 2016-01-19 01:32:34+08:00

Last physical down time : 2016-01-19
 01:32:18+08:00

Current system time: 2016-03-11
 12:52:21+08:00

Statistics last cleared:never

Last 300 seconds input
 rate: 5282602 bits/sec, 2145 packets/sec

Last 300 seconds output
 rate: 10257620 bits/sec, 2172 packets/sec

Input peak rate 61889542
 bits/sec, Record time: 2016-03-08 21:35:50+08:00

Output peak rate
 44101696 bits/sec, Record time: 2016-02-29 21:24:02+08:00

Input: 3718303973164
 bytes, 9686091586 packets

 Output: 4399835319156
 bytes, 9936141200 packets

Input:

Unicast:
 9667531790 packets, Multicast: 15760439 packets

Broadcast:
 2799357 packets, JumboOctets: 3664959 packets

CRC: 0
 packets, Symbol: 0 packets

Overrun: 0
 packets, InRangeLength: 0 packets

LongPacket:
 0 packets, Jabber: 0 packets, Alignment: 0 packets

Fragment: 0
 packets, Undersized Frame: 0 packets

RxPause:249947 packets——接口下有收到大量的pause帧,

Output:

Unicast:
 9928526555 packets, Multicast: 7582419 packets

Broadcast:
 32226 packets, JumboOctets: 0 packets

Lost: 0
 packets, Overflow: 0 packets, Underrun: 0 packets

System: 0
 packets, Overruns: 0 packets

TxPause: 0
 packets

Last 300 seconds input
 utility rate:  0.56%

Last 300 seconds
 output utility rate: 1.06%


根因


由于运营商设备向NE20E-S8发送大量PAUSE帧,NE20E-S8收到大量的PAUSE帧后,根据PAUSE帧中的等待时间停止发送报文,等待时间超时后继续发送报文,故造成网络中断,修复运营商侧设备后,故障排除。

PAUSE帧说明:当接收者没有能力处理接收到的报文时,为了防止丢包,接收者需要通知报文的发送者一段时间内停止发送报文。对于半双工模式和全双工模式,流控通过不同的方式来实现。在全双工模式下,接收者通过发送一种特殊的数据帧来通知发送者,停止发送报文,这种特殊的数据帧称为PAUSE帧。

PAUSE帧的长度固定为64字节(包括CRC),PAUSE帧的目的MAC为组播MAC:0180-c200-0001,源MAC为发送PAUSE帧的节点的MAC,LENTH/TYPE字段固定为0x8808。MAC CONTROL PARAMETERS字段表示要求发送者暂停发送流量的时间,数值有效范围为0-65535, 单位为512bit time(bit time指链路上传输1bit需要的时间,如100M链路bittime为10ns)。如果数据报文的接收者在发送PAUSE帧后,在PAUSE帧发送的等待时间超时之前可以处理数据报文,则再发送一个等待时间为0的PAUSE帧通知数据发送者开始发送数据。PAUSE的接收者(也是数据报文的发送者),收到PAUSE帧后会根据PAUSE帧中的等待时间停止发送报文,等待时间超时后继续发送报文。

解决方案
分析出故障原因后,将NE20E-S8对接的运营商传输设备替换后,网络恢复,清空下接口下的统计,观察一段时间,接口下收到的PAUSE帧数量没有增加,说明故障排除。

END