某局点USG2200 ping公网直连下一跳延时和丢包问题分析

发布时间:  2014-07-03 浏览次数:  374 下载次数:  12
问题描述
现网组网:内网---------SW---------USG2250---------ISP
USG2250作为公网出口上行连接运营商,下行通过交换机连接内网。客户反馈公网出口带宽50M。
故障时,在USG2250上ping直连下一跳延时达到300多毫秒,丢包率也很高。断开内网的一个服务器后ping正常。要求分析下USG2250 ping公网直连下一跳延时和丢包的原因。
[USG2250-1]ping -c 100 182.x.y.1
15:28:21  2014/07/01
  PING 182.x.y.1: 56  data bytes, press CTRL_C to break
    Reply from 182.x.y.1: bytes=56 Sequence=1 ttl=255 time=310 ms
    Reply from 182.x.y.1: bytes=56 Sequence=2 ttl=255 time=300 ms
    Request time out
    Reply from 182.x.y.1: bytes=56 Sequence=4 ttl=255 time=290 ms
    Reply from 182.x.y.1: bytes=56 Sequence=5 ttl=255 time=290 ms
    Reply from 182.x.y.1: bytes=56 Sequence=6 ttl=255 time=290 ms
    Reply from 182.x.y.1: bytes=56 Sequence=7 ttl=255 time=280 ms
    Reply from 182.x.y.1: bytes=56 Sequence=8 ttl=255 time=290 ms
    Request time out
    Request time out
    Reply from 182.x.y.1: bytes=56 Sequence=11 ttl=255 time=300 ms
    Reply from 182.x.y.1: bytes=56 Sequence=12 ttl=255 time=300 ms
    Reply from 182.x.y.1: bytes=56 Sequence=13 ttl=255 time=300 ms
    Reply from 182.x.y.1: bytes=56 Sequence=14 ttl=255 time=300 ms
    Reply from 182.x.y.1: bytes=56 Sequence=15 ttl=255 time=310 ms
    Request time out
    Request time out
    Reply from 182.x.y.1: bytes=56 Sequence=18 ttl=255 time=290 ms

  --- 182.x.y.1 ping statistics ---
    18 packet(s) transmitted
    13 packet(s) received
    27.77% packet loss
    round-trip min/avg/max = 280/296/310 ms
告警信息
处理过程
1、在内网连接服务器的时候,登录设备检查接口和流量情况,G0/0/0连接公网,自动协商为1000Mb/s接口,G0/0/1连接内网,自动协商成100Mb/s接口。流量为从内网到公网11Mbps,远小于客户说的50Mbps出口带宽。

2、检查USG2250的CPU使用率,管理面和转发面的CPU都不高,不会因为CPU利用率高导致丢包。

3、防火墙上配置流统看ping的结果,防火墙本身没有丢包,对端回应的报文就已经少了。从前面的信息以及流统分析,防火墙没有达到性能瓶颈,自身也没有丢包,应该跟防火墙不相关。

4、但是公网出口带宽有50M,实际经过防火墙只有11M,断开内网服务器ping又正常,到底内网服务器对USG2250自身ping公网下一跳有什么影响呢?

5、协调客户断开内网服务器进行对比测试,对于防火墙来说,唯一的差别就是流量大小由原来的11M降低到0.1M,ping就正常了。难道客户说的出口带宽50M是坑爹的?

6、在防火墙上配置car对出口流量限流测试,限流5M,ping就立刻正常,删除限流策略,ping延时又增加。逐步调整car的配置,调整到限流7M时,ping也正常,再扩大就延时正常。

7、从测试结果很明显能够确认,USG2250实际的公网出口带宽并没有客户说的50M,大于7M的流量就开始在运营商侧丢包。所以问题的根本原因就是运营商带宽不足导致。
根因
自身ping延时和丢包的可能原因:
1、 管理面CPU高,上送VRP丢包;
2、 流量太大,超过转发性能;
3、 接口协商有问题;
4、 带宽限制,运营商丢包。
建议与总结
1、自身ping延时和丢包的问题,可能的原因还是那么几个(接口、CPU、流量),排查的手段也还是那些,逐个排查,根据现网实际的信息来分析判断,碰到多了,同一类问题的处理自然而然形成固有的套路,
2、写这个案例,关键还是整理定位问题的思路和实际的处理方法,问题每天都有,故障的处理方式需要归类总结,我是这么处理问题,如果是你处理是不是有不一样的方法和手段;
3、客户提供的信息不能不信也不能全信,全信了有时候就容易掉进神坑,需要保持怀疑的态度去对待;
4、怀疑运营商带宽限制的时候,在防火墙上做限流是个很好的测试方式,可以提供很明确的证据说明运营带宽不足。

END