NE40E因现网突发流量导致端口shaping丢包

发布时间:  2010-06-30 浏览次数:  95 下载次数:  0
问题描述
现网在NE40E GE接口下配置 port shaping 16 M,其中ef最大占这16M带宽的70%,即在拥塞时保证约11M的带宽,但是在设备上行端口ef流量在2M多时,就显示有丢包。
interface GigabitEthernet8/1/10
 description link to ** TTSL-Bangalore-AR1 **
 undo shutdown
 port shaping 16 
 port-queue af3 wfq weight 20 outbound
 port-queue af4 wfq weight 10 outbound
 port-queue ef pq shaping shaping-percentage 70 outbound


处理过程
该丢包问题影响了现网业务,现场反馈去掉shaping配置,业务恢复正常。
推测应该是现网出现突发流量导致丢包。
根因
该丢包问题影响了现网业务,现场反馈去掉shaping配置,业务恢复正常。
推测应该是现网出现突发流量导致丢包。
解决方案
1、现场采集信息如下,但采集的信息是30s的平均流速和丢包现象,无法判断即时流量。
[BLRP01-GigabitEthernet8/1/10]dis port-queue statistics interface GigabitEthernet 8/1/10 ef outbound
 [ef]
  Total pass:132,551 packets,                 80,046,580 bytes
  Total discard:4,137 packets,                  3,623,249 bytes
    Drop tail discard:4,137 packets,                  3,623,249 bytes
    Wred discard:0 packets,                          0 bytes
  Last 30 seconds pass rate:355 pps,                      2,247,744 bps
  Last 30 seconds discard rate:15 pps,                        100,296 bps
    Drop tail discard rate:15 pps,                        100,296 bps
    Wred discard rate: 0 pps,                              0 bps
2、理论分析。
shaping采用令牌桶的方式来进行调度,简单说就是报文进来时,先缓存到一个队列里,队列的出口设置一个桶,定期填充令牌,代表一定的流量,当报文来时,如果报文长度<=桶的令牌数,则报文通过,同时,桶内令牌减小此报文长度。故令牌填充的速率就是报文出队的速率。
一般认为,队列的缓存长度就是承受突发的能力。当前设备实现上shaping的缓冲队列长度为1440个包,并且是不能修改的,如果现网突发流量超出缓存的大小,将导致丢包,并且无法从设备自身的配置上做优化。
3、现场和实验室测试结果。
现场使用软件模拟突发流量测试,在丢包的时候观察到了缓冲队列基本被占满的情况。
[SALP01-diagnose]efu tm 8 0 q cq sta 82 1 e                                     
------------------------------CQ State Information -----------------------------
CQID = 82                                                                       
  Memory cell count: 1177 //最大为1440 
Queue depth: 295                                                              
  Tail discard counter:                                                         
    Color    Green         Yellow        Red           UsrDef                   
    Counter  0x0           0x0           0x0           0x0                      
  Backup Pressure:  TP=10,  COS = 2,  BP of port: 0,  BP of CQ to FQ: 0         
[SALP01-diagnose]efu tm 8 0 q cq sta 82 1 e     
这说明缓冲队列溢出是一个瞬间的过程,抓到1177说明现网的突发流量应远大于1177。
在实验室测试也复现出了现网的问题。
端口信息如下:
<40E-32>dis port-q statistics interface gi 8/0/0 ef o
 [ef]
  Total pass:  115,702 packets,                 13,421,432 bytes
  Total discard: 11,798 packets,                  1,474,625 bytes
  Drop tail discard: 11,798 packets,                  1,474,625 bytes
  Wred discard: 0 packets,                          0 bytes
  Last 30 seconds pass rate: 2,940 pps,                      2,728,824 bps
  Last 30 seconds discard rate: 217 pps,                        217,144 bps
    Drop tail discard rate: 217 pps,                        217,144 bps
    Wred discard rate: 0 pps,                              0 bps
TM的内部队列拥塞状态:
[40E-32-diagnose]efu tm 8 0 q cq sta 2 1 e
------------------------------CQ State Information -----------------------------
CQID = 2
  Memory cell count: 1439   //队列已经为满
  Queue depth: 1439
  Tail discard counter:
    Color    Green         Yellow        Red           UsrDef
    Counter  0x0           0x0           0x0           0x0
  Backup Pressure:  TP=0,  COS = 2,  BP of port: 0,  BP of CQ to FQ: 0
由上确认,现网的丢包现象是突发流量所致,shaping功能不能适和现场的业务应用场景。
建议与总结

END