NE40E下带用户丢包问题处理分析

发布时间:  2016-06-19 浏览次数:  252 下载次数:  0
问题描述

NE40E下带 ONU 的语音地址PING 网关(在NE40E上)有丢包现象,丢包率为8-10%左右,语音电话时好时坏。


故障发生后,更换过NE40E的端口和光模块,也更换过S9312的端口、光模块和单板,还更换过NE40E的单板,但此问题只要客户把NE40ES9312光纤插拔,或NE40E光模块插拔业务都能恢复,但故障不定时的出现,可以初步判断不是硬件因素。


 

告警信息

处理过程

     1、     S9312上查看MAC地址学习情况,发现OUNMAC地址在S9312的下行口, 属于正常。

    2、 查看S9312ARP 没有发现异常,没有发现MAC飘移。

    3、 查看S9312是否存在环路,没有发现异常,不存在环路。

4NE40E上做PING 测试,在S9312 下行口和S9312上行口分别抓包,并进行数据分析,发现数据包ARP请求报文已经发给NE40E,但NE40E没有发ARP回复报文,由此问题定位在NE40E上。

   5通过在NE40EDEBUG和抓包分析,发现收到的ARP 请求报文的速率太快,缺省情况下,ARP报文允许通过的阈值是20pps,超出报文将被丢弃,怀疑ARP报文是NE40E丢弃,尝试使用arp rate-limit 命令用来设置某个端口允许通过的ARP报文的速率。把调整NE40E接口下报文允许通过的阈值调整为arp rate-limit 100后,测试正常没有发现丢包,问题得到解决。

根因

NE40E上同一VLAN的用户过多,下端ONU MAC 地址老化时间较短,致使下端用户请求的ARP报文数量超过接口阈值,而NE40E 接口默认值不能满足现网的需求,从而造成丢包。

解决方案

设置某个端口允许通过ARP报文速率的阈值:如 arp rate-limit 100

建议与总结

建议客户从根本上解决问题,合理规划子接口的IP地址及vlan 值,减小广播域,防止类似问题再次发生。

END