链路拥塞导致SR ping internet有无规律的丢包

发布时间:  2012-12-14 浏览次数:  95 下载次数:  0
问题描述
 

1、在SR设备上ping到internet有丢包现象,丢包无规律。

2、在相同SR上使用不同的源地址发送ping,有些有丢包现象,有些则没有丢包现象。

3、将原有丢包的源地址所在的接口shutdown后再undo shutdown后,丢包现象有些会消除。

处理过程
 

1、根据现象1,因丢包现象表现比较随机,怀疑为网络中的链路有拥塞现象导致丢包。

2、根据现象2,由于在多数高端设备中(如NE80E),在数据转发时,采用基于流的负荷分担方式使用HASH算法进行流量负载,相同的流会HASH到相同的出口链路上进行转发。在相同设备上使用不同的源地址进行ping操作,在网络中间设备转发时,会将其当作不同的流进行HASH到不同的链路上,而当经过的链路为发生拥塞的链路时,就会有丢包现象发生,因此出现了现象二中描述的故障。

3、对于现象3,由于将SR上原来ping有丢包现象的源地址所在接口shutdown后再undo shutdown,路由会重现收敛,设备会进行重新的转发表计算和HASH算法,而新计算出来的数据转发链路及原丢包时可能不同,当新HASH到的链路无拥塞时,丢包现象则会消除。

4、综合以上分析可以断定,城域网中的部分链路有拥塞发生。

根因
 

对城域网中所有骨干链路进行流量排查发现,在NE80E与P320之间存在三条POS链路,而由于城域网下行流量过大,同时NE80E版本负荷分担存在问题,到达相同目的地址的多条路由的下一跳为同一台设备时,无法进行正常的平均流量分配,致使三条链路上流量分配不均(VRP5.10 12002L),致使其中一条链路发生了拥塞。

解决方案
 

使用静态路由方式将下行流量平均引导到三条下行链路,消除拥塞现象后,原丢包问题消除。

建议与总结

负载分担场景都是在业务的上行板进行hash的。

END