服务器网卡故障导致交换机接口频繁up/down

发布时间:  2017-02-12 浏览次数:  1110 下载次数:  0
问题描述

根据客户反馈,设备间16台工作站PC,均接入到华为交换机CE6851下,其中部分工作站工作正常,部分工作站在开机后一段时间后网络断开,光网卡接口指示灯熄灭,交换机侧接口指示灯熄灭。在交换机侧更换接口以后,也是同样现象。

交换机型号:HUAWEI CE6851-48S6Q-HI

交换机版本:V100R005C10SPC200

补丁号:V100R005SPH009



告警信息

未加入客户网管平台,无相应告警信息。

处理过程

1.     通过现场检查故障工作站以及对应交换机接口,发现接口指示灯均为熄灭状态,交换机接口为1/0/45

2.     查看交换机接口1/0/45配置如下:

3.     查看交换机接口1/0/45信息如下:

其中高亮部分显示内容已经表明出现该故障的原因,由于link-flap导致的ERROR DOWN将接口1/0/45关闭导致网络断开,更换接口故障依旧。

由于交换检测到交换机接口频繁Up/Down,判断该接口链路存在链路震荡的可能从而触发error down功能保护交换不会因为链路震荡而增加额外的开销并引起全网拓扑收敛导致的不稳定。

4.     通过查看交换机日志可以进一步确认在接口被自动down掉之前是否存在频繁Up/Down的记录。

5.     由于客户在使用过程中网卡的闪断时间非常短,而客户基本上无法感知到,而交换机侧发现有这种情况以后主动采取处理措施将接口关闭掉。这是由于该版本中,交换机在全局与接口上都启用了链路震荡保护功能,一旦发现存在链路震荡发生将果断进行关闭。

6.     根据客户需求,通过在全局将链路震荡保护功能关闭(undo port link-flap trigger error-down)解决该问题。





根因

交换机接口默认启用链路震荡保护功能,在10秒以内发生5次以上up/down后接口将会被自动shutdown。由于服务器网卡故障导致接口频繁up/down,这一点可以由Log得到印证。

解决方案

当接口状态显示为ERROR DOWN(link-flap)时,建议按照以下思路处理:

1.检查历史告警。如果过去长时间内,接口存在较多的Up/Down告警,表明接口工作状态不稳定,建议排查链路两端的光模块和光纤是否正常。

2.恢复接口状态。默认情况下接口ERROR DOWN后不会自动恢复,需要执行shutdownundo shutdown命令手动恢复。用户也可以在接口未Error-Down时,通过执行error-down auto-recovery cause link-flap interval interval-value命令配置接口ERROR DOWN(link-flap)后自动恢复。

如果用户不希望检测到接口闪断,可以采取如下操作:

1.调整Link-flap检测门限。有部分服务器网卡在服务器启动过程中会出现比较频繁的闪断,造成设备误判。这时可以考虑通过执行port link-flap { interval interval-value threshold threshold-value | interval interval-value | threshold threshold-value }命令增大Link-flap的检测门限。

2.关闭接口的Link-flap检测功能。如果不希望对某个接口做Link-flap检测,可以进入该接口视图(或者在全局使用以下命令,在全局生效):

a.对于V100R002C00及更早的版本,通过执行undo port link-flap trigger error-down命令关闭Link-flap检测。

b.对于V100R002C00版本的V100R002SPH006补丁和V100R003C00及以后版本,通过执行port link-flap threshold 0命令关闭Link-flap检测。

END