手动清除告警

定位方法

  1. 通过ssh登陆到出现网口告警的节点,执行命令ethtool -S B3-0(B3-0为网口名)查看网口的丢包信息。查看命令结果中后缀为dropped(丢包数)、errors(错误包)、overflow(溢出)。
    Node1-01-03:~ # ethtool -S B3-0 
         fdir_match: 115023286 
         fdir_miss: 385277 
         fdir_overflow: 0 
         fcoe_bad_fccrc: 0 
         fcoe_last_errors: 0 
         rx_fcoe_dropped: 0 
         rx_fcoe_packets: 0 
         rx_fcoe_dwords: 0
    
  2. 执行ifconfig B3-0(B3-0为网口名),查看该网口的丢包数。
    Node1-01-03:~ # ifconfig B3-0 
    B3-0      Link encap:Ethernet  HWaddr D0:D0:4B:8E:B0:17 
              inet addr:172.50.0.11  Bcast:172.50.0.255  Mask:255.255.255.0 
              inet6 addr: fe80::d2d0:4bff:fe8e:b017/64 Scope:Link 
              UP BROADCAST RUNNING MULTICAST  MTU:1500  Metric:1 
              RX packets:414582141 errors:0 dropped:209682987 overruns:0 frame:0 
              TX packets:744128159 errors:0 dropped:0 overruns:0 carrier:0 
              collisions:0 txqueuelen:1000 
              RX bytes:660472768463 (629875.9 Mb)  TX bytes:628837643426 (599706.3 Mb)
    
  3. 步骤2的丢包数与步骤1的丢包数相比较,差距过大,说明丢包不是在链路层,而是在协议层丢包。

根因分析

该告警实现上是使用ifconfig命令获取丢包数,在有很多协议不支持的情况下,或者防火墙导致的“drop”都会统计进ifconfig的命令查询结果中,在该场景下告警设置的阀值1/1000不适用,从而导致上报该告警。

解决方案

手动清除该告警。

建议与总结

无。