RH2285绑定网卡因dropped值持续递增误告警

发布时间:  2015-10-18 浏览次数:  645 下载次数:  2
问题描述
客户的网管监控系统监控到RH2285网卡BOND1的dropped值持续递增,告警RH2285网络异常。
告警信息
处理过程

1. 确定BOND1网卡中哪块网卡处理主用激活状态。

   从下面查询到的信息,可以判断eth1处理主用状态,eth3处于备用状态。

   HIS:~ # cat /proc/net/bonding/bond1
   Ethernet Channel Bonding Driver: v3.7.1 (April 27, 2011)
   Bonding Mode: fault-tolerance (active-backup)
   Primary Slave: None
   Currently Active Slave: eth1
   MII Status: up
   MII Polling Interval (ms): 100
   Up Delay (ms): 0
   Down Delay (ms): 0
   Slave Interface: eth1
   MII Status: up
   Speed: 1000 Mbps
   Duplex: full
   Link Failure Count: 0
   Permanent HW addr: 30:d1:7e:ec:f6:d7
   Slave queue ID: 0
   Slave Interface: eth3
   MII Status: up
   Speed: 1000 Mbps
   Duplex: full
   Link Failure Count: 0
   Permanent HW addr: 30:d1:7e:e8:3c:38
   Slave queue ID: 0

2. 获取网卡dropped信息。
从下面的查询信息,可获知BOND上的dropped值与备用网卡eth3 上dropped值完全一致。

   HIS:~ # ifconfig     
   bond1     Link encap:Ethernet  HWaddr 30:D1:7E:EC:F6:D7 
          inet addr:112.4.23.179  Bcast:112.4.23.191  Mask:255.255.255.224
          inet6 addr: fe80::32d1:7eff:feec:f6d7/64 Scope:Link
          UP BROADCAST RUNNING MASTER MULTICAST  MTU:1500  Metric:1
          RX packets:11890507 errors:0 dropped:154782 overruns:0 frame:0
          TX packets:4704766 errors:0 dropped:0 overruns:0 carrier:0
          collisions:0 txqueuelen:0
          RX bytes:16061507963 (15317.4 Mb)  TX bytes:1631375384 (1555.8 Mb)
   eth1      Link encap:Ethernet  HWaddr 30:D1:7E:EC:F6:D7 
          UP BROADCAST RUNNING SLAVE MULTICAST  MTU:1500  Metric:1
          RX packets:11735725 errors:0 dropped:0 overruns:0 frame:0
          TX packets:4704766 errors:0 dropped:0 overruns:0 carrier:0
          collisions:0 txqueuelen:1000
          RX bytes:16048059615 (15304.6 Mb)  TX bytes:1631375384 (1555.8 Mb)
          Interrupt:28 Memory:d0b40000-d0b52800
   eth3      Link encap:Ethernet  HWaddr 30:D1:7E:EC:F6:D7 
          UP BROADCAST RUNNING SLAVE MULTICAST  MTU:1500  Metric:1
          RX packets:154782 errors:0 dropped:154782 overruns:0 frame:0
          TX packets:0 errors:0 dropped:0 overruns:0 carrier:0
          collisions:0 txqueuelen:1000
          RX bytes:13448348 (12.8 Mb)  TX bytes:0 (0.0 b)
          Interrupt:17 Memory:d0900000-d0912800

3. 多次获取网卡dropped值,并前后值进行对比。
   对比前后获取网卡dropped值,发现递增值只会在BOND网卡和备用网卡,主用网卡值一直是0,没有发生任何变化。

4. 通过抓取SNMP报文,并保存为/tmy/mysnmp.cap,下载到本地用wireshark进行分析。

    HIS:~ # tcpdump  -i bond1 snmp  -s0  -w  /tmy/mysnmp.cap

  

根因
问题产生的根因是BOND网卡中处于备用状态的网卡没有忽略dropped报文,导致dropped持续递增。
解决方案
BOND备用状态网卡,不会走正常的数据报文,dropped值可以忽略。通知网管侧进行告警优化,备用网卡产生的dropped报文可以忽略不进行告警。
建议与总结
在处理服务器侧网络故障,建议多使用抓包,通过分析网络报文快速定位问题。

END