华为NE系列路由器接口ERROR-DOWN故障及处理方式
什么是ERROR-DOWN?
ERROR-DOWN机制是设备提供的一种保护机制,涉及接口、安全、二层环路检测等多个特性。配置上述特性的指定功能后,一旦检测到接口或者接口关联的业务存在异常,设备即关闭接口并将接口状态设为ERROR-DOWN,从而防止异常进一步扩散影响到整个网络。
当接口处于ERROR-DOWN状态时,其指示灯状态为常灭,接口不能正常收发报文,设备上产生ERROR-DOWN_1.3.6.1.4.1.2011.5.25.257.2.1 hwErrordown告警。
告警格式为Error-down occurred. (Ifindex=[IfIndex], Ifname=[IfName], Cause=[Cause])。其中参数Cause为hwErrordown告警产生的原因码。
通过display interface命令可以查看指定接口当前是否处于ERROR-DOWN状态,以及触发接口ERROR-DOWN保护机制的具体原因。
ERROR-DOWN的故障排查和恢复方式
造成接口ERROR-DOWN状态的原因有很多,通常您可以根据设备上产生的ERROR-DOWN告警中的错误码来判断。
以下是一些常见的错误码和产生原因:
边缘端口接收到了BPDU(Bridge Protocol Data Unit)报文
错误原因码
bpdu-protection
原因描述
此原因码会出现在边缘端口直接和用户终端相连的场景。正常情况下,边缘端口不会收到BPDU报文。当攻击者伪造BPDU报文恶意攻击设备时,边缘端口接收到BPDU报文后,设备会自动将边缘端口设置为非边缘端口,并重新进行生成树计算,从而引起网络震荡。
为了解决此问题,设备支持配置BPDU保护功能。配置该功能后,一旦边缘端口接收到了BPDU报文,该接口将被关闭,接口处于ERROR-DOWN(bpdu-protection)状态。
相关配置
- 执行命令system-view,进入系统视图。
- 执行命令stp bpdu-protection,配置边缘端口的BPDU保护功能。配置之后边缘端口不参与生成树计算。
- 执行命令commit,提交配置。
恢复方法
在采用恢复措施前,需要先排除业务故障,以防止接口再次进入ERROR-DOWN(bpdu-protection)状态。针对边缘端口接收到BPDU报文这一异常情况,请检查该端口是否应该被配置为边缘端口。
- 如果该接口不需要配置为边缘端口,请在接口视图下执行undo stp edged-port和restart命令,取消边缘端口的配置。
- 如果该接口需要配置为边缘端口,请排查网络中可能存在的伪造BPDU报文的攻击源。
设备提供手动恢复和自动恢复两种措施将接口从ERROR-DOWN(bpdu-protection)状态恢复。
- 手动恢复
在接口视图下依次执行命令shutdown和undo shutdown或者执行命令restart,重启接口。
- 自动恢复
在配置BPDU保护功能后,在系统视图下执行error-down auto-recovery cause bpdu-protection interval interval-value命令,设置由bpdu-protection引起的ERROR-DOWN在延时interval-value秒后自动恢复功能。
自动恢复措施对已经处于ERROR-DOWN(bpdu-protection)状态的接口无效,因此建议您在配置业务的同时配置自动恢复功能。
详情请参考ERROR-DOWN自动恢复。
一致性恢复功能失败
错误原因码
flow_inconsistency_occured
原因描述
该原因码会出现在主动免疫诊断系统SAID(System of Active Immunization and Diagnosis)启用转发面与控制面一致性检测功能的场景下。配置set said-cfc recovery enable命令启用一致性恢复功能,能够在业务转发出现故障时进行自愈恢复,提高业务转发的可靠性。
如果检测发现控制面与转发面不一致,设备会触发端口Up/Down一次,来完成一致性恢复功能。如果一致性恢复失败,则端口进入ERROR-DOWN(flow_inconsistency_occured)状态。
相关配置
- 执行命令system-view,进入系统视图。
- 执行命令set said-cfc recovery enable,启用控制面转发面一致性恢复功能。
- 执行命令commit,提交配置。
恢复方法
在采用恢复措施前,需要先排除业务故障,以防止接口再次进入ERROR-DOWN(flow_inconsistency_occured)状态。针对转发面与控制面不一致的问题,请联系华为技术支持工程师进行处理。
设备提供手动恢复和自动恢复两种措施将接口从ERROR-DOWN(flow_inconsistency_occured)状态恢复。
- 手动恢复
执行命令undo set said-cfc recovery enable关闭控制面与转发面一致性恢复功能。
- 自动恢复
等待端口Up/Down后,如果转发面与控制面一致,则告警自动恢复。
对于端口Up/Down后转发面与控制面不一致的场景,告警无法自动恢复,只能通过手动进行恢复。
Master设备的扩展端口状态为Down
错误原因码
ap-extendport-down
原因描述
此原因码会出现在配置端口扩展的场景下。如图1-1所示,当接入节点的AP设备外联口Down时,会联动触发作为控制节点的Master设备的扩展端口进入ERROR-DOWN(ap-extendport-down)状态。
端口扩展特性涉及的基本概念如下表所示。
概念 |
描述 |
---|---|
内联接口(Internal communication interfaces) |
用于Master设备和AP设备进行互联的接口,需要使能虚拟接入能力。 |
外联接口(External communication interface) |
AP设备上连接系统外部的接口,该接口在Master设备上有对应的端口扩展接口。 |
端口扩展接口(Port extension interface) |
Master设备在本地为AP设备上的外联接口建立的一个虚拟的映射接口。Master设备上的一个端口扩展接口对应AP设备上的一个外联接口。 |
相关配置
- 执行命令system-view,进入系统视图。
- 执行命令ap-id ap-id,进入AP视图。
- 执行命令remote-interface ap-interface-type ap-interface-number [ to max-port-number ] binding master-interface-type master-interface-number配置AP设备的外联接口与Master设备的内联接口之间的绑定关系,并创建相应的端口扩展接口。
- 执行命令commit,提交配置。
恢复方法
先排除业务故障,排查对应AP设备的外联口,确保接口物理层与链路层状态正常,具体排查方法与普通物理接口Down方法一致。
- 手动恢复
先检查故障端口和对端线缆连接是否正常,再查看故障端口的对端端口状态是否为Up。
- 自动恢复
在系统视图下执行命令error-down auto-recovery cause ap-extendport-down interval interval-value设置由ap-extendport-down引起的Error-Down在延时interval-value秒后自动恢复Up功能。
缺省情况下,未使能处于ERROR-DOWN(ap-extendport-down)状态的接口状态自动恢复为Up的功能。
自动恢复措施对已经处于ERROR-DOWN(ap-extendport-down)状态的接口无效,因此建议您在配置业务的同时配置自动恢复功能。
详情请参考ERROR-DOWN自动恢复
检测到二层环路
错误原因码
l2-loop-occurred
原因描述
当设备所在的二层网络形成环路时,将会导致大量重复报文上送给CPU处理,形成环路风暴,最终导致正常业务中断。为了防止此类事故发生,通常会在设备上配置二层环路检测功能。当设备检测到发生环路时,能够快速识别发生环路的接口,并及时发送告警或关闭发生环路的接口,以防止对业务产生更大的影响。
当设备检测到有接口发生二层环路后,会使该接口进入ERROR-DOWN(l2-loop-occurred)状态,同时会上报环路告警DEFEND_1.3.6.1.4.1.2011.5.25.165.1.11.9hwBaseSecurityStormControlInterface。该环路告警内容为L2 loop detect alarmed, a loop occurs on an interface. (ChassisID=[ChassisID], SlotID=[SlotID], Interface Name=[IfName], VlanID=[VlanID], Loop Level=[LoopLevel].)。
相关配置
- 执行命令system-view,进入系统视图。
- 执行命令slot slot-id,进入槽位视图。
- 执行命令l2-loop-detect action shutdown,配置设备检测发生二层环路的响应动作为关闭接口。
缺省情况下,关闭发生环路的接口的功能未使能,发送告警的功能是使能。
- 执行命令commit,提交配置。
恢复方法
先排除业务故障,排查对应接口所在网络存在的二层环路,重新配置消除环路。
- 手动恢复
执行命令undo l2-loop-detect action shutdown关闭联动端口Down功能,发现环路后会上报环路告警,不联动端口Down。
- 自动恢复
在系统视图下执行error-down auto-recovery cause l2-loop-occured interval interval-value命令设置由该原因引起的ERROR-DOWN(l2-loop-occurred)在延时interval-value秒后自动恢复功能。
缺省情况下,未使能处于ERROR-DOWN(l2-loop-occurred)状态的接口状态自动恢复功能。
自动恢复功能对已经处于ERROR-DOWN(l2-loop-occurred)状态的接口无效,因此建议您在配置业务的同时配置自动恢复功能。
详情请参考ERROR-DOWN自动恢复。
ERROR-DOWN自动恢复
ERROR-DOWN自动恢复介绍
ERROR-DOWN自动恢复功能可以使处于ERROR-DOWN状态的接口经过用户设置的延迟时间后自动恢复为Up状态。此功能对由于同一原因触发ERROR-DOWN的接口同时生效,避免了手工方式逐一开启多个接口时效率低,易遗漏等问题。
自动恢复功能对已经处于ERROR-DOWN状态的接口无效,建议您在配置业务的同时配置自动恢复。由于接口ERROR-DOWN后需要一定的时间来排除业务故障,因此建议您将Up延迟时间设置的足够长,例如1小时(3600秒)。
相关配置
- 执行命令system-view,进入系统视图。
- 执行命令error-down auto-recovery cause { bpdu-protection | l2-loop-occured | ap-extendport-down } interval interval-value用来使能处于ERROR-DOWN状态的接口状态自动恢复为Up的功能,同时设置接口状态自动恢复为Up的延迟时间为interval-value秒。
- 执行命令commit,提交配置。
相关信息
接口Down的其他故障原因和解决方式,请参考《NE40E 维护宝典V3.0(适用于VRP8软件平台)》中的“故障处理 > 接口与链路 > 接口公共故障处理”。
关于NE路由器接口的更多原理描述和配置,请参考《NE40E V800R011C10SPC100 产品文档》中的“接口与链路”。