因流量突发导致NE40 CPOS接口丢包

发布时间:  2012-12-13 浏览次数:  163 下载次数:  0
问题描述
 

版本信息:
NE40 VRP3.10 2321
NE20 VRP5.30 23122004

组网描述:
多台NE20 E1与NE40 CPOS采用mp-group对接,带宽2*2M,运行EBGP,NE40/C6509/S8512采用GE对接,运行OSPF
故障现象:
NE20下挂客户机访问S8512下服务器应用程序慢,ping大包丢包。

处理过程
 

1.检查NE40/NE20 cpu、memory均正常,说明丢包并非由于设备处理能力不足引起。
2.client ping NE40大包丢包,但NE20/NE40互连mpgroup无crc错包增长,说明丢包和物理接口、链路无关。
3.NE40 ping server大包不丢包。说明从NE40到server接口、链路正常,丢包只发生在NE40到NE20侧。
4.在NE40上做EACL匹配测试,client ping server的icmp报文NE40均能收到并转发到server,server回应的imcp报文NE40也均能收到。
5.因多台NE20下挂client ping server均有丢包,可以基本排除NE20原因,初步判断丢包发生在NE40 CPOS口。
6.在NE40/C6509互连GE端口做抓包测试,发现server回应给client的报文主要是1500字节的不分片TCP报文。观察NE40/NE20互连mp-group接口流量统计在2Mbps以上,由于接口统计值是一段时间内的平均值,不能反应流量的突发情况,结合GE口抓包分析很可能是服务器回的大包造成流量突发引起NE40 CPOS丢包。
7.进一步分析NE40低速端口有调度队列的限制,缺省的BE流只能利用令牌桶高256K的1/32,即8K。那么假如在1秒钟之内,突发流量的尺寸大于8k就会导致丢包,而对于EF流不存在该限制。据此,对client访问server流做QoS保证,定义为EF流,并在mp-group接口上设置EF流带宽3.2M(3.2M/4M=80%),即EF流占可用带宽的80%。设置完毕后client ping server大包不再丢包,业务应用正常。虽然client ping NE40下挂的其他业务网段大包仍有丢包,但由于相关应用是基于小包的,小包不丢包,所以对实际应用并无影响。

根因
解决方案
 

对client访问server流做QoS保证,定义为EF流,并在mp-group接口上设置EF流带宽3.2M(3.2M/4M=80%),即EF流占可用带宽的80%。

建议与总结
在设备上高低速并存情况下,基于高、低速端口的业务互访可能会因流量突发导致丢包,通过结合设备的接口队列调度机制进行分析并采用相应手段进行处理,从一定程度上可以有效的保证业务的正常应用。

END