ERROR DOWN接口状态恢复
简介
在交换机设备上,有时用户会发现物理接口的状态是ERROR DOWN,进而想要了解接口发生ERROR DOWN的原因以及接口如何恢复。本文档描述了ERROR DOWN状态是什么,以及如何从中恢复。
前提条件
本文档适用于V200R001C00及后续版本的S系列交换机。设备上支持的down-cause字段值可能因版本、款型不同而有差异,请以实际设备为准。
故障描述
在对接的两个设备上的任意视图下,均执行命令display interface interface-type interface-number,查看接口当前运行状态和接口统计信息。其中,current state字段为ERROR DOWN(down-cause),此处以ERROR DOWN(as-not-ready)为例。
<HUAWEI> display interface gigabitethernet 0/0/12 GigabitEthernet0/0/12 current state : ERROR DOWN(as-not-ready) Line protocol current state : DOWN Description: Switch Port, Link-type : access(negotiated), PVID :1, TPID : 8100(Hex), The Maximum Frame Length is 9216 IP Sending Frames' Format is PKTFMT_ETHNT_2, Hardware address is 000b-0974-a475 Last physical up time: 2013-08-10 21:09:51 Last physical down time : 2013-08-10 21:10:51 Current system time: 2013-08-10 21:15:06 Port Mode: COMMON COPPER Speed : 1000, Loopback: NONE Duplex: FULL, Negotiation: ENABLE
故障恢复方法
接口的current state字段为ERROR DOWN (down-cause),表示接口由于错误事件而被Shutdown。用户需要根据down-cause具体字段信息排查故障。常见down-cause字段值如下表所示。
down-cause字段值 |
场景说明 |
---|---|
as-not-ready |
当设备协商为AS模式时,端口状态会变为Down,待模板业务下发完成后,端口重新Up。 |
auto-defend |
执行命令auto-defend action配置攻击溯源的惩罚措施后,设备会将攻击报文进入的接口shutdown,从而避免攻击源继续攻击设备。 |
bpdu-protection |
在运行STP协议的网络中,边缘端口配置BPDU保护功能后,如果有人伪造BPDU报文恶意攻击交换设备,交换设备会在边缘端口接收到BPDU报文时将边缘端口状态变为Down,从而阻塞该接口上的所有业务。 |
efm-remote-failure |
执行efm trigger error-down命令使能远端故障事件和当前接口联动功能时,当EFM检测到故障事件critical-event、dying-gasp、link-fault或timeout后,相应接口的协议状态变为Down,接口上的所有业务将全部被中断。 |
efm-threshold-event |
当配置了链路监控功能后,如果在设置的观察时长内,接口检测到的误帧、误码或者误帧秒数量达到或者超过门限值,则用户可以认为此链路不可以用。在此情况下,使用EFM越限事件和当前接口联动功能将接口状态变为Down,从而阻塞该接口上的所有业务。 |
error-statistics |
配置了备份链路的以太网接口,当接收到错误报文时,会导致业务丢包等故障。为了不影响业务的正常运行,当接收到的错误报文达到告警阈值时,则将接口shutdown,业务切换到备份链路。 |
runts-error-statistics |
插拔光纤、网线或者光模块,执行shutdown、undo shutdown命令或者网络中存在Runts报文等情况会导致接口收到Runts错包。为了避免对设备或者运行的业务带来更坏的影响,设备会统计接口在1分钟内收到的Runts错包数,当Runts错包数超过告警阈值5时,将该接口shutdown。 |
link-flap |
网线故障或主备倒换等问题会引起接口状态频繁Up/Down变化,此时可配置接口的Link-flap保护,设备在收到接口Up/Down消息时,查看接口振荡的次数和间隔时间,在指定时间内Up/Down振荡次数达到了设定值时,将该接口shutdown。 |
storm-control |
配置了接口下风暴控制的动作为error-down后,在风暴控制检测时间间隔内,当接口上接收广播、组播或未知单播报文的平均速率大于指定的高阈值的时候,接口将进行关闭处理。 |
port-security |
配置接口安全功能后,设备学习到的MAC地址变为安全动态MAC。若通过port-security protect-action命令配置接口安全保护动作为shutdown,当接口学习到的安全MAC地址数超过限制或配置静态MAC地址检测功能后出现静态MAC地址漂移时,就把接口关闭。 |
mac-address-flapping |
当用户网络中由于环网等原因造成了MAC地址漂移时,可以在相应接口上配置发生MAC地址漂移后的处理动作来实现破环。接口配置了MAC地址漂移处理动作后,如果系统检测到是该接口学习的MAC发生漂移,会将该接口关闭。 |
transceiver-power-low |
配置了备份链路的以太网光接口,当接口的光功率降低时,会导致业务丢包等故障。为了不影响业务的正常运行,当光功率低于设置的告警下限阈值时,触发接口error-down,及时切换业务。 |
data-integrity-error |
设备长时间运行后,芯片内存标识符出现数据完整性错误。 |
ERROR DOWN状态恢复措施包括手动和自动两种。
- 手动恢复
在接口视图下依次执行命令shutdown和undo shutdown命令或者执行命令restart,重启接口。
- 自动恢复
在系统视图下执行命令error-down auto-recovery cause down-cause interval interval-value,设置由具体原因引起的ERROR DOWN自动恢复Up功能。
您可以使用该命令将接口从down-cause字段值中显示的原因中在指定间隔时间后将接口恢复为UP。例如,接口GE0/0/1接口的current state字段为ERROR DOWN(auto-defend),则可以通过以下命令,是接口在30秒之后恢复UP功能。
<HUAWEI> error-down auto-recovery cause auto-defend interval 30
您可以在接口UP的状态下,对引起接口ERROR DOWN的业务进行排查,进而从根本上解决故障。
无论是手动恢复还是自动恢复,都不能将接口彻底从ERROR DOWN状态恢复。您需要对相应业务进行排查,从根本上排除引起接口ERROR DOWN的故障。否则,即使接口从ERROR DOWN状态恢复了,也会再次进入ERROR DOWN状态,直到您彻底排除故障。
相关信息
以太网接口物理DOWN的故障处理,请参考《华为S系列园区交换机维护宝典--故障处理:以太网接口物理DOWN》。