所选语种没有对应资源,请选择:

本站点使用Cookies,继续浏览表示您同意我们使用Cookies。Cookies和隐私政策>

提示

尊敬的用户,您的IE浏览器版本过低,为获取更好的浏览体验,请升级您的IE浏览器。

升级

交换机接口故障排除

评分并提供意见反馈 :
华为采用机器翻译与人工审校相结合的方式将此文档翻译成不同语言,希望能帮助您更容易理解此文档的内容。 请注意:即使是最好的机器翻译,其准确度也不及专业翻译人员的水平。 华为对于翻译的准确性不承担任何责任,并建议您参考英文文档(已提供链接)。
交换机接口故障排除

交换机接口故障排除

简介

本文档描述了当物理接口处于DOWN状态时如何定位故障原因并从中恢复。

接口物理DOWN概述

以太网接口是提供给用户操作或配置的真实存在、有器件支持的物理接口,主要用于接收和发送数据。接口保持正常UP状态是设备正常运转的最基本条件。

当接口处于DOWN状态时,其指示灯状态为常灭,接口不能正常收发报文,设备上产生类似如下格式的日志:

IFPDT/4/IF_STATE(l)[3]:Interface GigabitEthernet0/0/12 has turned into DOWN state. 

您可以通过执行display interface命令查看接口当前物理状态(回显中current state字段信息)。

<HUAWEI> display interface gigabitethernet 0/0/12
GigabitEthernet0/0/12 current state : Administratively DOWN
Line protocol current state : DOWN
Description:
Switch Port, Link-type : access(negotiated),
PVID :1, TPID : 8100(Hex), The Maximum Frame Length is 9216
IP Sending Frames' Format is PKTFMT_ETHNT_2, Hardware address is 000b-0974-a475 
Last physical up time: 2013-08-10 21:09:51 
Last physical down time : 2013-08-10 21:10:51
Current system time: 2013-08-10 21:15:06
Port Mode: COMMON FIBER
Speed : 1000,Loopback: NONE
Duplex: FULL,Negotiation: ENABLE
Mdi: -,Flow-control: DISABLE
Last 300 seconds input rate 96 bits/sec, 0 packets/sec
Last 300 seconds output rate 96 bits/sec, 0 packets/sec
Input peak rate 15184 bits/sec, Record time: 2013-08-10 17:45:05
Output peak rate 15184 bits/sec, Record time: 2013-08-10 17:45:05

上述示例中,接口GE0/0/12的当前物理状态为Administratively DOWN ,即设备接口下存在命令shutdown,可以断定配置错误引发接口DOWN,您需要在对应接口视图下执行undo shutdown命令。

说明:
  • 对于二层物理接口,只要物理状态current state为UP,协议状态Line protocol current state一定是UP的。例如,二层物理接口连线正确,并且接口属性配置正常后,物理状态current state和协议状态Line protocol current state均UP。
  • 对于三层物理接口,只有物理状态current state为UP,并且协议协商也成功后,协议状态Line protocol current state才会UP。例如,三层物理接口连线正确,并且接口属性配置正常后,如果没有配置IP地址,则物理状态current state为UP,但协议状态Line protocol current state仍处于DOWN状态。

接口物理DOWN原因及处理方法

引起接口物理DOWN的原因主要包括硬件和软件两类故障:

硬件故障。本端或对端设备硬件故障包括单板、接口、光模块、光纤、网线等故障。

软件故障。主要包括链路两端配置不一致,主要包括端口协商模式、速率、双工等配置

如下图所示,为了更加精确的分析接口物理DOWN的故障原因,本文主要按照故障可能的引入点为线索,具体按照人-》机-》料-》法-》环五步骤为排查顺序,逐步找到问题根因并排除故障。

人--人为因素导致接口物理DOWN

故障原因描述

当接口由正常UP状态变为物理DOWN时,需要首先排查下近期是否有人为操作不当,包括错误拔插网线、误碰触设备导致连线松动以及在设备上进行了命令行误操作等行为。

故障诊断操作步骤

在对接的两个设备上的任意视图下,均执行命令display interface interface-type interface-number,查看接口当前运行状态和接口统计信息。

<HUAWEI> display interface gigabitethernet 0/0/12
GigabitEthernet0/0/12 current state : DOWN//接口当前物理状态
Line protocol current state : DOWN
Description:
Switch Port, Link-type : access(negotiated),
PVID :1, TPID : 8100(Hex), The Maximum Frame Length is 9216
IP Sending Frames' Format is PKTFMT_ETHNT_2, Hardware address is 000b-0974-a475 
Last physical up time: 2013-08-10 21:09:51 
Last physical down time : 2013-08-10 21:10:51
Current system time: 2013-08-10 21:15:06
Port Mode: COMMON FIBER//接口工作模式。 COMMON COPPER表示此接口为电接口;
                         COMMON FIBER表示此接口为光接口 
Speed : 1000,Loopback: NONE//接口速率、环回状态,链路两端需要保持一致
Duplex: FULL,Negotiation: ENABLE//接口双工模式及自协商状态,
                                  链路两端需要保持一致 

故障恢复方法

  • current state字段为“Administratively down”,表示接口被人为Shutdown,请在接口下执行undo shutdown命令。
  • current state字段为“DOWN”,则需要查看速率、双工、自协商模式是否链路两端保持一致。

    a.若Negotiation字段为“ENABLE”,则接口处在自协商模式,速率双工均是双方协商的结果,如果链路两端速率双工协商不一致,可以执行命令restart,重启接口,使之重新协商。如果仍然协商不成功,可执行命令undo negotiation auto,使之工作在非自协商模式。速率双工配置可参见下一情况。

    b.若Negotiation字段为“DISABLE”,则接口处在非自协商模式,速率双工模式可在接口视图下执行 命令speed{ 10 | 100 | 1000 }以及duplex { full | half }进行配置调整,使链路两端参数保持一致。

  • current state字段为“ERROR DOWN (down-cause)”,表示接口由于错误事件而被Shutdown,您需要根据down-cause具体字段信息排查故障。常见down-cause字段值如下表所示。

    down-cause字段值

    场景说明

    恢复手段

    as-not-ready

    当设备协商为AS模式时,端口状态会变为Down,待模板业务下发完成后,端口重新Up。

    在采用恢复措施前,建议您先排除业务故障,以防止接口再次进入ERROR DOWN状态。

    ERROR DOWN状态恢复措施包括手动和自动两种。

    • 手动恢复

      在接口视图下依次执行命令shutdownundo shutdown命令或者执行命令restart,重启接口。

    • 自动恢复

      在系统视图下执行命令error-down auto-recovery cause down-cause interval interval-value,设置由具体原因引起的Error-Down自动恢复Up功能。

    auto-defend

    执行命令auto-defend action配置攻击溯源的惩罚措施后,设备会将攻击报文进入的接口shutdown,从而避免攻击源继续攻击设备。

    bpdu-protection

    在运行STP协议的网络中,边缘端口配置BPDU保护功能后,如果有人伪造BPDU报文恶意攻击交换设备,交换设备会在边缘端口接收到BPDU报文时将边缘端口状态变为Down,从而阻塞该接口上的所有业务。

    efm-remote-failure

    执行efm trigger error-down命令使能远端故障事件和当前接口联动功能时,当EFM检测到故障事件critical-eventdying-gasplink-faulttimeout后,相应接口的协议状态变为Down,接口上的所有业务将全部被中断。

    efm-threshold-event

    当配置了链路监控功能后,如果在设置的观察时长内,接口检测到的误帧、误码或者误帧秒数量达到或者超过门限值,则用户可以认为此链路不可以用。在此情况下,使用EFM越限事件和当前接口联动功能将接口状态变为Down,从而阻塞该接口上的所有业务。

    error-statistics

    配置了备份链路的以太网接口,当接收到错误报文时,会导致业务丢包等故障。为了不影响业务的正常运行,当接收到的错误报文达到告警阈值时,则将接口shutdown,业务切换到备份链路。

    runts-error-statistics

    插拔光纤、网线或者光模块,执行shutdown、undo shutdown命令或者网络中存在Runts报文等情况会导致接口收到Runts错包。为了避免对设备或者运行的业务带来更坏的影响,设备会统计接口在1分钟内收到的Runts错包数,当Runts错包数超过告警阈值5时,将该接口shutdown。

    link-flap

    网线故障或主备倒换等问题会引起接口状态频繁Up/Down变化,此时可配置接口的Link-flap保护,设备在收到接口Up/Down消息时,查看接口振荡的次数和间隔时间,在指定时间内Up/Down振荡次数达到了设定值时,将该接口shutdown。

    storm-control

    配置了接口下风暴控制的动作为error-down后,在风暴控制检测时间间隔内,当接口上接收广播、组播或未知单播报文的平均速率大于指定的高阈值的时候,接口将进行关闭处理。

    port-security

    配置接口安全功能后,设备学习到的MAC地址变为安全动态MAC。若通过port-security protect-action命令配置接口安全保护动作为shutdown,当接口学习到的安全MAC地址数超过限制或配置静态MAC地址检测功能后出现静态MAC地址漂移时,就把接口关闭。

    mac-address-flapping

    当用户网络中由于环网等原因造成了MAC地址漂移时,可以在相应接口上配置发生MAC地址漂移后的处理动作来实现破环。接口配置了MAC地址漂移处理动作后,如果系统检测到是该接口学习的MAC发生漂移,会将该接口关闭。

    transceiver-power-low

    配置了备份链路的以太网光接口,当接口的光功率降低时,会导致业务丢包等故障。为了不影响业务的正常运行,当光功率低于设置的告警下限阈值时,触发接口error-down,及时切换业务。

    data-integrity-error

    设备长时间运行后,芯片内存标识符出现数据完整性错误。

机--设备自身硬件故障

故障原因描述

当设备单板故障、单个接口故障、以及对端设备出现异常状况时,直接会导致接口物理DOWN。因此设备自身硬件故障是重点排查项。

故障诊断操作步骤

任意视图下执行命令display interface brief ,查看所有接口状态和配置的简要信息。

<HUAWEI> display interface brief
… …
Interface             PHY    Protocol InUti OutUti inErrors outErrors
GigabitEthernet0/0/1  down   down       0%     0%     0       0
GigabitEthernet0/0/2  down   down       0%     0%     0       0
GigabitEthernet0/0/3  down   down       0%     0%     0       0
GigabitEthernet0/0/4  down   down       0%     0%     0       0
GigabitEthernet0/0/5  down   down       0%     0%     0       0
GigabitEthernet0/0/6  down   down       0%     0%     0       0
  • 如果是批量接口由UP变为DOWN,则可能原因是本端或对端设备的单板故障以及对端设备状态变化,例如对端设备进行主备倒换、休眠或者重启等。
  • 如果是单个接口由UP变为DOWN,则可查看对接的两个接口槽位外观上是否有金属弹片存在凹陷或偏位现象。如果外观没有问题,还需要在接口视图下执行命令loopback internal ,查看接口内部是否存在硬件故障。 如果执行命令loopback internal 后,接口状态(字段current state )变为 UP,则接口内部连接正常, 无硬件故障,如果接口状态仍然为DOWN,则接口内部通信异常,存在硬件故障。
    <HUAWEI> system-view 
    [HUAWEI] interface gigabitethernet 0/0/1
    [HUAWEI-GigabitEthernet0/0/1] loopback internal
    [HUAWEI-GigabitEthernet0/0/1] display this interface 
    GigabitEthernet0/0/1 current state : UP 
    Line protocol current state : UP 
    … …

故障恢复方法

  • 批量接口物理DOWN

    a.如果多个接口物理DOWN,这些接口都属于同一块单板,并且连接到多个无异常的对端设备,则可能是单板异常,尝试执行命令reset slot slot-id ,复位单板。如果故障仍未解决,需要更换单板。

    b.如果多个接口物理DOWN,并且这些接口都是属于本端设备和对端同一设备连接的接口,则可能原因是对端设备异常,您需要登录对端设备查看设备单板是否故障,并及时进行复位或更换操作,如果对端设备处于主备倒换、休眠、重启等状态, 则可以认为属于正常现象,待对端设备状态稳定后,一般本端设备状接口状态即可自动恢复到UP状态。该场景下,接口会出现频繁UP/DOWN,产生如下所示的大量UP/DOWN日志。

    Apr 15 2013 03:46:14-05:13 dgg62aslhw3i %%01IFNET/4/IF_STATE(l)[46]:Interface
    GigabitEthernet1/0/1 has turned into UP state.
    Apr 15 2013 03:46:10-05:13 dgg62aslhw3i %%01IFNET/4/IF_STATE(l)[47]:Interface
    GigabitEthernet1/0/1 has turned into DOWN state.
    Apr 15 2013 03:45:35-05:13 dgg62aslhw3i %%01IFNET/4/IF_STATE(l)[48]:Interface
    GigabitEthernet1/0/1 has turned into UP state.
    Apr 15 2013 03:45:31-05:13 dgg62aslhw3i %%01IFNET/4/IF_STATE(l)[49]:Interface 
    GigabitEthernet1/0/1 has turned into DOWN state.
    Apr 15 2013 03:42:10-05:13 dgg62aslhw3i %%01IFNET/4/IF_STATE(l)[50]:Interface
    GigabitEthernet1/0/1 has turned into UP state.

    如果对端设备反复重启,例如S交换机与AP设备对接,AP反复重启,导致S交换机上与之连接的接口物理DOWN。此时需要排查AP反复重启原因,确认是否存在网络环路、大量ARP广播报文、网络攻击等因素并排除后,才可以确保接口正常UP。

  • 单个接口物理DOWN

    仅有单个接口物理DOWN,则需要排查链路两端接口是否有金属弹片凹陷等硬件故障,如果接口故障可尝试使用其他空闲接口。

料--连接介质故障

故障原因描述

交换机物理接口有电口和光口,涉及的传输介质主要是RJ45-网线,光模块、光纤。当传输介质出现老化、破损或者光模块收发光异常等故障时,将会导致接口物理DOWN。

故障诊断操作步骤

电口连接介质故障

  1. 检查连线是否正确。

    保证对接两端接口使用同一根网线,如果经过跳线架请检查跳线是否正确;检查接口是否连接正确,同时检查是否存在接触不好及网线外部损坏的情况。

  1. 检查网线规格及长度是否符合标准。

    依据以太网相关标准,网线长度不能超过100m。对于GE电口,如果使用低于五类线的网线将不能够使GE电口以1000M速率UP,所有电口对接,均推荐使用五类线以上规格的网线对接。

  1. 检查网线内部线对状态是否正常。

    网线中4对线序中有部分出现损坏,将不能保证电口正常UP。检测网线质量,可以使用测线仪或者接口视图下执行virtual-cable-test 命令,检测线序对连接是否正常。

    如下所示回显中Pair state为OK表示正常;如果为其他状态(例如Open或Short),建议您更换其他网线测试。

    [HUAWEI] interface gigabitethernet 0/0/1
    [HUAWEI-GigabitEthernet0/0/1] virtual-cable-test 
    Warning: The command will stop service for a while, Continue?[Y/N] y 
    Info: This operation may take a few seconds. Please wait for a moment..........done. 
    Pair A length: 1meter(s) 
    Pair B length: 1meter(s) 
    Pair C length: 1meter(s) 
    Pair D length: 1meter(s) 
    Pair A state: Ok 
    Pair B state: Ok 
    Pair C state: Ok 
    Pair D state: Ok 

光口连接介质故障

  1. 光模块是否属于华为认证光模块。

    华为公司在交换机产品发货的光模块标签上增加有华为logo和相应标识,如下图所示,在产品电子标签、光模块信息里面都更新为“HUAWEI”厂家信息。

    对于非华为认证发货的光模块插入交换机设备中,会出现告警信息。告警格式如下:

    ENTITYTRAP/3/OPTICALINVALID:OID [oid] Optical Module is invalid.(Index=[INTEGER],
    EntityPhysicalIndex=[INTEGER], PhysicalName=\"[OCTET]\", EntityTrapFaultID=[INTEGER])
  1. 检查光模块状态是否正常。

    执行命令display transceiver interface,检查两端设备上的光模块工作状态是否正常,主要查看收光功率、发光功率、电流值等,确定各项指标是否都在正常范围内。

    <HUAWEI> display transceiver interface GigabitEthernet 2/0/3 verbose 
    … …
    Diagnostic information: Temperature (°C) :39
    Voltage(V):3.32 
    Bias Current(mA):6.91          //电流值 
    Bias High Threshold(mA):33.34
    Bias LowThreshold(mA):1.67 
    Current Rx Power(dBM):-4.59   //接口收光功率 
    Default Rx Power High Threshold(dBM):0.00
    Default Rx Power LowThreshold(dBM):-16.99 
    Current Tx Power(dBM):-5.10   //接口发光功率 
    Default Tx Power High Threshold(dBM):0.00 
    Default Tx Power LowThreshold(dBM):-12.50 
    User Set Rx Power High Threshold(dBM) :0.00 
    User Set Rx Power Low Threshold(dBM):-16.99 
    User Set Tx Power High Threshold(dBM) :0.00 
    User Set Tx Power Low Threshold(dBM):-12.50

故障恢复方法

电口连接介质故障

如果电口网线故障,建议直接更换网线。

光口连接介质故障

  1. 如果使用的光模块为非华为认证光模块,请更换使用华为认证光模块。非认证光模块可靠性无法保证,可能导致业务不稳定。由非华为认证光模块导致的问题,华为将不承担责任,并在原则上不予以解决。
  1. 如果执行display transceiver interface命令查看光模块工作状态参数,按照下表所示标准结论判断参数否超出正常范围。

    光模块状态属性

    正常数值范围

    电压 Voltage(V)

    数值不等于0

    电流Bias Current(mA)

    数值在门限范围内,即取值范围在

    Bias LowThreshold(mA)和Bias High Threshold(mA)之间

    接收光功率 Current Rx Power(dBM)

    数值在默认门限范围内,即取值范围在回显字段Default Rx Power LowThreshold(dBM)和Default Rx Power LowThreshold(dBM)数值之间

    发送光功率 Current Tx Power(dBM)

    数值在默认门限范围内,即取值范围在回显字段Default Tx Power LowThreshold(dBM)和Default Tx Power LowThreshold(dBM)数值之间

如果发送光功率过低或过高:请更换光模块。

如果收光功率过低或过高:使用光功率计测试链路各部分的光功率衰减情况,对异常的部位进行修复。如果仍无法解决问题请更换光模块或者光纤,确保光模块传输距离和光纤类型符合组网需求。

法--连接介质使用方法错误

故障原因描述

进行设备间连接介质操作时,需要考虑光模块与光口是否匹配,光模块是否与光纤型号是否匹配,光模块与光纤连线操作是否正确等。当接口出现物理DOWN时,可以从上述几个原因进行排查。

故障诊断操作步骤

  1. 任意视图执行命令display device,查看设备型号及部件信息,其中框式设备主要可查看对应单板名称。
    <HUAWEI> display device 
    S9303‘s Device status://设备型号 ,下方回显信息中Type列表示单板名称 
    Slot Sub  Type      Online   Power   Register   Status   Role 
    ------------------------------------------------------------
    1     -   LE0MX4UXA Present  PowerOn Registered  Normal  NA
    
    2     -   LE0MF48TA Present  PowerOn Registered  Normal  NA
    3     -   LE0MG24SA Present  PowerOn Registered  Normal  NA
    4     -   LE0DMCUA  Present  PowerOn Registered  Normal  Master
    PWR1  -   -         Present  PowerOn Registered  Abnormal NA 
    FAN1  -   -         Present  PowerOn Registered  Normal   NA 
  2. 登录硬件查询工具,查询当前使用的光模块类型是否和对应设备接口匹配以及光模块是否和光纤型号匹配。
  3. 两端设备上均在任意视图下执行命令display transceiver interface,检查链路两端光模块参数是否一致。
    <HUAWEI> display transceiver interface GigabitEthernet 0/0/1 verbose 
    GigabitEthernet0/0/1 transceiver information: 
    ------------------------------------------------------------- 
    Common information: Transceiver Type:1000_BASE_SX_SFP //光模块型号 
    Connector Type:LC 
    Wavelength(nm):850      //光模块波长 
    Transfer Distance(m):500(50um),300(62.5um)//光模块传输距离 
    Digital Diagnostic Monitoring:YES 
    Vendor Name:HUAWEI 
    Vendor Part Number:02315204 
    Ordering Name: 
    ------------------------------------------------------------- 
    Manufacture information: 
    Manu. Serial Number:NSK1NNV 
    Manufacturing Date:2014-11-09 
    Vendor Name:HUAWEI 
    -------------------------------------------------------------
  4. 检查光纤连线方式是否正确,光模块一般包含发送端(TX)和接收端(RX)。光接口对接时需要两根光纤将一端光模块TX端与另一端RX连接,一端光模块RX端与另一端TX连接。

  5. 判断接口是否为Combo接口,如果是Combo接口,检查接口使用方法是否正确,即接口当前工作模式是否和您当前接口连线是否一致。

    如下图所示,Combo接口GE1/0/1在设备面板上对应两个接口:Combo光口和Combo电口。Combo光口和Combo电口不能同时工作。当用户需要对Combo光口或Combo电口进行属性配置时,都只需要进入同一接口视图GE1/0/1进行配置即可。

    任意视图下执行命令display interface,查看接口是否为Combo接口,以及当前工作模式是否正常。

    <HUAWEI> display interface gigabitethernet 1/0/1 
    GigabitEthernet1/0/1 current state : DOWN 
    Line protocol current state : DOWN 
    Description:HUAWEI, Quidway Series, GigabitEthernet1/0/1 Interface
    …… 
    Port Mode: COMBO AUTO //Combo口工作模式一般有三种 
                           COMBO AUTO:自动选择接口模式;
                           FORCE FIBER:强制选择光口模式;
                           FORCE COPPER:强制选择电口模式。 
    Current Work Mode: COPPER//当Port Mode显示为COMBO AUTO时,此处表示
                               当前实际自动选择到的工作模式,
                               COPPER:电口模式;FIBER:光口模式
    Speed : 100, Loopback: NONE 

故障恢复方法

  1. 根据 硬件查询工具,确保当前使用的光模块与光口匹配,光模块与光纤匹配,如果不一致,请更换相应部件。
  2. 如果当前接口为Combo接口,则Combo接口工作模式选定原则如下:
    • 当指定Combo接口工作模式为自动选择模式时(接口视图下执行combo-port auto,默认设备 Combo接口工作模式为auto),系统将检测Combo光口是否有光模块插入,进行模式选择:

      Combo电口没有连接网线,当Combo光口插上光模块时,则Combo接口选择 光口模式。

      Combo电口已经连接网线,且Combo接口处于UP状态,此时即使Combo光口插上光模块,Combo接口仍选择为电口模式。但是设备重启后,Combo接口 工作模式将变为光口模式。

      Combo电口已经连接网线,且Combo接口处于DOWN状态,此时Combo光口插上光模块时,Combo接口将选择光口模式。

      综上所述,Combo接口工作模式为自动选择模式时,只要Combo光口已插上光模块,则设备重启后,Combo接口都将选择光口模式

    • 当Combo接口的工作模式设置为强制模式时,需要根据本端与对端设备连接的接口类型进行配置

      如果本端Combo电口与对端电口相连,则需要强制指定Combo接口的工作模式为copper,即接口视图下执行combo-port copper

如果本端Combo光口与对端光口相连,则需要强制指定Combo接口的工作模式为fiber,即接口视图下执行combo-port fiber

综上所述,当确定正确的传输介质后(光纤或者网线)后,就可以确定Combo口正确的工作模式,您可以直接使用命令combo-port {copper | fiber },强制配置接口工作模式和连接介质保持一致即可。

环--环境因素导致的故障

原因描述

交换机使用场景复杂多样,设备可以处于网络中任意一个层级。当交换机及其连接介质由于环境因素导致异常时,接口状态也可能物理DOWN。

故障诊断操作步骤

  • 检查机房温度及湿度状况

    S交换机工作环境温度:0℃~45℃,相对湿度在5%RH~95%RH之间,不结露。

  • 检查线缆布放状况

    电源线与业务线缆分开布放。不能出现强弱电线缆并行的情况,防止干扰。检查是否有高温或者机架磨损导致网线破损老化的问题。

恢复方法

  • 若机房的环境温度长期不能满足要求,应考虑检修或更换机房的空调系统。若机房的相对湿度过大,应考虑为机房安装除湿设备;若机房的相对湿度过小,应考虑为机房安装加湿设备。
  • 若出现强弱电线缆并行现象,请重新部署线缆走向,强弱电线缆分离。如因环境因素导致网线损伤老化,请更换网线。

相关信息

翻译
下载文档
更新时间:2019-06-29

文档编号:EDOC1100088146

浏览量:1379

下载量:229

平均得分:
本文档适用于这些产品
相关版本
相关文档
Share
上一页 下一页