所选语种没有对应资源,请选择:

本站点使用Cookies,继续浏览表示您同意我们使用Cookies。Cookies和隐私政策>

提示

尊敬的用户,您的IE浏览器版本过低,为获取更好的浏览体验,请升级您的IE浏览器。

升级

框式交换机单板复位故障

评分并提供意见反馈 :
华为采用机器翻译与人工审校相结合的方式将此文档翻译成不同语言,希望能帮助您更容易理解此文档的内容。 请注意:即使是最好的机器翻译,其准确度也不及专业翻译人员的水平。 华为对于翻译的准确性不承担任何责任,并建议您参考英文文档(已提供链接)。
框式交换机单板复位故障

框式交换机单板复位故障

简介

单板异常复位会造成正在运行中的业务中断。通过本文档,您可以快速了解并掌握此类启问题的处理思路和方法,针对部分导致故障的原因可提前预防,避免故障造成的业务损失。

所有单板均复位

故障诊断流程

框式交换机是分布式系统,各块单板由独立的系统构成。接口板之间独立运行互不影响,接口板由主用主控板统一管理控制。如果主控板故障会导致接口板复位,但框式交换机采用两块主控板备份机制,一般情况下主用主控板故障会自动切换到备用主控板,而原先的主控板自动复位之后成为新的备用主控板,所以双主控情况下一块主控板复位一般不会导致所有单板都复位。

图1-1 所有单板均复位故障诊断流程图

故障诊断步骤及解决措施

  1. 通过display device命令,查看单板复位所在设备的主控板个数。

    如果设备是单主控,主控板复位后会造成所有业务板一起复位,主控板复位的诊断方法可参考单一单板复位

    如果设备是双主控,一般是由供电问题引起的整机复位。

    首先判断是否由外部供电原因引起的复位。

    根据记录的reboot time(使用display logbuffer命令查看设备的复位记录),确认用户电网该时间段有没有突发掉电的情况,主要包括以下几个方面:
    • 是否人为操作导致的设备下电。
    • 如果是UPS供电,查看UPS的日志,在该时间段是否有异常记录。
    • 确认同一个机柜/同一个供电的网络内其他设备有没有过掉电。
    • 该时间段是否有大功率设备接入导致供电不足的情况。
    • 排查是否有线路老化、接触不牢导致掉电的情况。
    • 使用万用表测量输入电压是否正常。

    如果排查存在异常,按照排查出的具体原因解决外部供电的问题。

  2. 如果确认外部电网没有问题,通过display alarm all查看设备自身的电源模块是否存在告警。

    常见的电源告警信息有:

    • 当信息中包含Power is invalid for not support时,表示设备插入了不兼容的电源。
    • 当对于同一电源,同时出现PWR_LACK和SWITCH_STAT传感器告警时,表示电源在位但是没有接电源线或电源开关没开。
    • 如果单独出现PWR_FAULT传感器告警,则可能是因为电源风扇故障、输出过压、外部短路、无输出故障、没有电压输入等。

  3. 在条件允许的情况下,可以尝试更换电源槽位、交叉验证电源模块等手段确认是否电源模块自身故障。
  4. 如果排除自身电源模块的问题,请联系技术支持人员

单一单板复位

故障诊断流程

图1-2 单一单板复位故障诊断流程图

故障诊断步骤及解决措施

查看交换机的类型和版本信息

  1. 通过display device命令,查看交换机的型号及各部件的状态信息。

    <HUAWEI> display device
    S9706's Device status:                                                          
    Slot  Sub Type         Online    Power      Register       Status     Role      
    ------------------------------------------------------------------------------- 
    1     -   EH1D2X12SSA0 Present   PowerOn    Registered     Normal     NA        
    4     -   -            Present   PowerOn    Unregistered   -          NA        
    7     -   EH1D2SRUDC00 Present   PowerOn    Registered     Normal     Master    
    PWR1  -   -            Present   -          Unregistered   -          NA        
    PWR2  -   -            Present   PowerOn    Registered     Normal     NA        
    CMU1  -   EH1D200CMU00 Present   PowerOn    Registered     Normal     Master    
    FAN1  -   -            Present   PowerOn    Registered     Normal     NA        
    FAN2  -   -            Present   PowerOn    Registered     Normal     NA        

    通过显示信息可看出设备型号为S9706以及单板、电源和风扇的状态信息(Status字段为Normal时表示正常)。

  2. 通过display version命令,查看交换机的版本信息。

    <HUAWEI> display version 
    Huawei Versatile Routing Platform Software                                      
    VRP (R) software, Version 5.160 (S9700 V200R008C00SPC300)                       
    Copyright (C) 2000-2016 HUAWEI TECH CO., LTD                                    
    Quidway S9706 Terabit Routing Switch uptime is 0 week, 3 days, 18 hours, 31 minu
    tes                                                                

    通过显示信息可看出设备的软件版本为V200R008C00。

查看单板的复位原因

  1. 通过display reset-reason命令,查看所有单板的复位信息。

    <HUAWEI> display reset-reason
    The LPU frame[1] board[1] has no reset records.
    The LPU frame[1] board[2] has no reset records.
    The LPU frame[1] board[3]'s reset total 1, detailed information:
    --  1. 2012/03/13   19:58:15, Reset No.: 1
           Reason: Check mod information fail
    The MPU frame[1] board[4] has no reset records.
    The MPU frame[1] board[5]'s reset total 967, detailed information:
    --  1. 2012/03/20   13:07:52, Reset No.: 967
           Reason: Warm reset board for no receiving message in a long time
    --  2. 2012/03/20   12:57:52, Reset No.: 966
           Reason: Warm reset board for no receiving message in a long time
    --  3. 2012/03/20   12:47:52, Reset No.: 965
           Reason: Warm reset board for no receiving message in a long time
    --  4. 2012/03/20   12:37:52, Reset No.: 964
           Reason: Warm reset board for no receiving message in a long time
    --  5. 2012/03/20   12:27:52, Reset No.: 963
           Reason: Warm reset board for no receiving message in a long time

    也可通过display reset-reason slot ID命令,查看具体槽位上单板的复位信息,ID表示具体槽位号。

    表1-1 display reset-reason命令输出信息描述

    项目

    描述

    LPU/MPU

    业务接口板/主控板

    frame

    单板所在框号

    board

    单板所在槽位号

    reset total

    复位次数

    detailed information

    复位信息

    Reset No.

    复位编号

    Reason

    复位原因

  2. 分析查询到的复位原因并执行相应措施。display reset-reason查询到的复位原因如表1-2所示。

    表1-2 复位原因及处理方法

    复位原因

    处理方法

    用户相关

    Reset by user command

    命令行或网管复位

    确认拥有复位权限的用户是否进行了复位操作

    Power off by user command

    VRP reset selfboard because of command

    Reset board by vrp cmd

    Reset board by snmp

    Reset for rollback

    The demo time of license is overtime

    临时license到期后复位

    请检查并联系华为获取license

    加载相关

    Reset for load

    升级软件的时候,接口板加载软件后复位

    无,属于正常复位

    Reset for lpu resource-mode disaccord with mpu

    接口板配置的资源模式和主控板不符合后复位

    无,属于正常复位

    Reset for the LPU patch file or module does not match that on the MPU

    接口板配置的补丁文件或插件和主控板不符合后复位

    等待单板注册上之后,再进行加载/删除补丁、加载/删除插件的操作

    Reset for initializing the board's status by IFNET

    主备倒换后,重新配置单板接口状态

    主备倒换后接口板配置未恢复,属于板间无法通讯

    主备倒换后接口板正常工作,属于正常情况

    Reset slave board for memsize too little

    备板内存小于主控板内存

    检查备板内存大小,如果小于主控板内存需要更换

    Reset for slave board's card statement disaccord with master's

    两块主控板只有一块装有FSU等子卡

    请保证两块主控都配置了相同的子卡或者都没有配置子卡

    Reset for patch load

    补丁加载后复位

    接口板启动过程中有补丁操作,属于正常情况

    Reset for patch get state fail

    补丁加载失败复位

    启动过程中出现一两次属于正常情况

    多次出现请联系技术支持人员

    Reset for patch load file fail

    Reset for patch synchronize file fail

    Reset for patch state compare fail

    软件异常相关

    VRP reset selfboard because of find deadloop

    检测到死循环复位

    通过查看告警及日志进一步定位

    VRP reset selfboard because of find exception

    检测到软件异常复位

    联系技术支持人员

    Board reset by VRP for schedule

    拥塞导致异常复位

    通过查看告警及日志进一步定位

    VRP reset selfboard because of no memory

    内存耗尽复位

    检查内存是否过高

    通过查看告警及日志进一步定位

    Reset for memory use out

    设备管理相关

    Reset for no receiving mpu's heart

    接口板40秒未收到主控板心跳报文后复位

    单板无心跳复位,排查单板未插紧导致的单板复位

    Reset for no heart

    主控板30秒未收到单板心跳报文,复位接口板

    Reset for not receiving register ack from mpu

    接口板注册20次但无法收到主控板注册回应报文后复位

    板间通讯存在故障,排查单板未插紧导致的单板复位

    Reset for state not stable

    主控板收到接口板报文时断时续,复位接口板

    Warm reset board for no register in a long time

    检测到单板30分钟内都未成功注册

    Warm reset board for no receiving message in a long time

    主控板10分钟都没有收到接口板的任何报文

    Cold reset board for no receiving message in a long time

    主控板20分钟都没有收到接口板的任何报文

    Cold reset board for CPU is not active

    主控板检测到单板CPU不工作

    Power off the board because of reset three times continuously

    单板在启动过程中复位了3次,下电复位单板

    为防止热启动不成功,3次热启动之后下电复位一次

    Reset for unregister but receive heartbeat info

    单板未注册,但是收到了该单板心跳报文

    通过查看告警及日志进一步定位

    Reset for slave board class disaccord with mpu

    主备板类型不一致

    查询主用和备用主控板的类型,更换单板保持一致

    Reset for lpu or slave version disaccord with mpu

    单板启动版本和主控板不一致

    备板复位:确认主备之间版本,目前V1R2和V1R3无法自动同步版本会引发复位

    其它单板复位:联系技术支持人员

    Reset for no receiving master cpu's heart

    VASP板CPU的主核60秒未收到副核的心跳

    联系技术支持人员

    硬件器件相关

    Reset for selftest fail

    单板自检失败

    器件自检失败,尝试拔插单板和更换槽位。如不能解决可判断为单板故障。

    Reset for CPLD self-test fail

    CPLD自检失败

    Reset selfboard because of initialize fsu fail

    初始化FSU失败

    reset for fpga load failed

    FPGA加载失败

    Reset for fpga in abnormal state

    FPGA状态不正常

    Reset for lanswitch chip parity error

    lanswitch电路校验错误

    Reset for FSU card type mismatch

    FSU子卡不匹配

    更换与框类型相匹配的FSU子卡,如不能解决请联系技术支持人员

    Board reset by ISIS for purging LSP error

    清除LSP异常

    启动过程中出现一两次属正常情况。

    多次出现请联系技术支持人员

    集群相关

    Reset for frame combine

    集群合并复位

    正常情况

    Reset for frame split

    集群分裂复位

    Reset for fsp

    集群复位

    Reset for one frame register, but the board is not register

    设备注册时单板未注册

    Reset for slave to master in slave frame, but self is not register

    在备设备上,备升主,单板还未注册

    Reset for slave to master in master frame, but self is not register

    在主设备上,备升主,单板还未注册

    Reset by switchover command from system master chassis

    命令行集群倒换复位

    Reset by command from other chassis

    其他集群单板下发复位命令

    Reset board after syn version

    版本同步后复位

    Reset board for Peer frame is in CSS force master status

    对框设置了强制主而复位

    Reset for fpga state disaccord with system master

    表示主控板为SRUC的设备与主控板为SRUD的设备组建集群时,主控板为SRUD的设备使能了主控板硬件驱动引擎。

    需要先执行命令undo detect-engine enable去使能主控板硬件驱动引擎(去使能后需要重启生效),然后再进行集群配置。

    设备自愈相关

    Reset selfboard for ecm channel switch

    检测到ECM 通道故障

    联系技术支持人员

    Reset for an entry check error in chip

    检测到芯片表项存在严重错误

    Reset for CSS chip failure

    检测到主控板CSS芯片故障

    Reset for all HG down

    检测到主控板所有内部互联口全部故障

    Reset for critical task has not been scheduled for long time

    检测到设备关键任务长时间无法调度

查看告警

查看告警方法

当设备发生故障,或设备所处环境超出正常工作要求时,将导致系统无法正常工作,系统能够根据不同类型的故障产生告警信息。

告警信息可以通过如下两种方式查看到:

  • 通过网络管理系统界面(如esight网管)直接查看告警信息。
  • 通过display trapbuffer命令在命令行终端界面查看设备上告警显示区内的告警信息。

告警显示区内的信息与指定的告警显示条目,即value的大小有关。如果当前告警显示区内信息数少于用户指定的显示条目,则在终端界面上显示实际条数的告警信息。

<HUAWEI> display trapbuffer
Trapping buffer configuration and contents : enabled                            
Allowed max buffer size : 1024                                                  
Actual buffer size : 256                                                        
Channel number : 3 , Channel name : trapbuffer                                  
Dropped messages : 0                                                            
Overwritten messages : 6248                                                     
Current messages : 256                                              
#Sep 19 2012 04:38:03+08:00 HUAWEI DS/4/DATASYNC_CFGCHANGE:OID 1.3.6.1.4.1.2011
.5.25.191.3.1 configurations have been changed. The current change number is 8, 
the change loop count is 0, and the maximum number of records is 4095.          
#Sep 19 2012 04:37:39+08:00 HUAWEI LINE/5/VTYUSERLOGIN:OID 1.3.6.1.4.1.2011.5.2
5.207.2.2 A user login. (UserIndex=34, UserName=VTY, UserIP=10.135.18.114, UserC
hannel=VTY0)                                                         
也可使用如下命令来查看设备的具体告警信息:
  • 执行命令display alarm all,查看所有槽位的告警信息。
  • 执行命令display alarm active,查看设备启动后当前仍然未恢复的告警信息。
  • 执行命令display alarm history,查看设备启动后记录的历史告警信息。
与单板复位相关的常见告警及处理方法
表1-3 与单板复位相关的常见告警及处理方法

告警/告警ID

告警简要描述

告警解释

常见原因

处理方法

BASETRAP/4/ENTITYREMOVE

1.3.6.1.4.1.2011.5.25.129.2.1.1

Physical entity is removed

物理实体(包括单板、子卡,电源、风扇、光模块等)被拔出时产生该告警。

物理实体(包括单板、子卡,电源、风扇、光模块等)被拔出。

确认物理实体被拔出是否属于正常操作。

ENTITYTRAP/4/BOARDREMOVE

1.3.6.1.4.1.2011.5.25.219.2.2.1

Board has been removed

单板被拔出时产生此告警。

单板被拔出。

  • 确认单板是否被人为拔出。
  • 确认单板是否安装到位。

ENTITYTRAP/4/POWERREMOVE

1.3.6.1.4.1.2011.5.25.219.2.5.1

Power is absent

电源被拔出时产生此告警。

电源被拔出。

确认电源是否被人为拔出,如果电源插入完好,告警仍然存在,则需要更换电源。

Entitytrap/1/POWERINVALID

1.3.6.1.4.1.2011.5.25.219.2.5.5

Power supply is unavailable for some reason

电源整体功能失效。

电源开关未打开。

电源未连接外部供电线缆。

设备系统电源的外部供电的电压不满足设备输入电压规格要求。

排查电源异常导致的单板复位

BASETRAP/1/POWEROFF

1.3.6.1.4.1.2011.5.25.129.2.3.1

The power supply is off

电源下电。

BASETRAP/1/VOLTRISING

1.3.6.1.4.1.2011.5.25.129.2.2.9

Voltage exceeded the upper pre-alarm limit

电压过高,超过最高阈值。

外部供电不稳引起。

电源模块故障。

单板故障。

排查电源异常导致的单板复位

ENTITYTRAP/1/ENTITYVOLTALARM(错误码141056)

1.3.6.1.4.1.2011.5.25.219.2.10.5

Voltage of power rise over or fall below the alarm threshold

电源电压过高。

BASETRAP/1/VOLTFALLING

1.3.6.1.4.1.2011.5.25.129.2.2.11

Voltage has fallen below the lower pre-alarm limit

电压过低,低于最低阈值。

外部供电不稳引起。

电源模块故障。

电源数量不足导致电源对系统的供电不足。

单板故障。

排查电源异常导致的单板复位

ENTITYTRAP/1/ENTITYVOLTALARM(错误码141057)

1.3.6.1.4.1.2011.5.25.219.2.10.5

Voltage of power rise over or fall below the alarm threshold

电源电压过低。

ENTITYTRAP/1/ENTITYBRDTEMPALARM(错误码140544)

1.3.6.1.4.1.2011.5.25.219.2.10.13

Temperature rise over or fall below the warning alarm threshold

温度高于正常范围上限。

设备排风不畅,导致热量散发不畅。

防尘网堵塞。

空闲槽位未插入假面板。

设备所处环境温度过高。

设备的风扇数量不足。

设备的风扇发生故障。

排查温度或风扇异常导致的单板复位

BASETRAP/3/TEMRISING

1.3.6.1.4.1.2011.5.25.129.2.2.1

Temperature exceeded the upper pre-alarm limit

当实体(单板或者单板上的子卡)上传感器读出的温度值超过该传感器允许的最高阈值时,产生温度过高的告警。

ENTITYTRAP/4/FANREMOVE

1.3.6.1.4.1.2011.5.25.219.2.6.1

Fan has been removed

风扇不在位时产生此告警。

风扇被拔出或者未插稳。

排查温度或风扇异常导致的单板复位

ENTITYTRAP/1/FANINVALID(错误码139264)

1.3.6.1.4.1.2011.5.25.219.2.6.5

Fan is invalid

风扇整体功能失效。

风扇硬件故障。

将风扇拔出后重新插入,确保风扇已经插好。风扇插好时,正常情况下风扇指示灯为绿色慢闪。

如果风扇告警仍未恢复,请更换风扇。

ENTITYTRAP/1/FANINVALID(错误码139266)

1.3.6.1.4.1.2011.5.25.219.2.6.5

Fan is invalid

风扇整体功能失效。

风扇类型与机框类型不匹配。

根据告警信息确定产生告警的风扇,通过命令display elabel查看告警风扇的电子标签,确定该风扇类型是否与机框类型匹配。如果不匹配请更换风扇。

ENTITYTRAP/4/ENTITYCPUALARM

1.3.6.1.4.1.2011.5.25.219.2.14.1

CPU utilization exceeded the pre-alarm threshold

当设备的CPU使用率超过门限阈值的时候会有此告警发出。

CPU告警阈值设置太低。

当前设备支持的业务太多。

设备受到攻击导致CPU资源占用过高。

参考《故障处理:CPU占用率高》处理。

BASETRAP/2/CPUUSAGERISING

1.3.6.1.4.1.2011.5.25.129.2.4.1

CPU utilization exceeded the pre-alarm threshold

CPU使用率超过阈值。

ENTITYTRAP/4/ENTITYMEMORYALARM

1.3.6.1.4.1.2011.5.25.219.2.15.1

Memory usage exceeded t he threshold, and it may cause the system to reboot

设备的内存使用率超过门限阈值。

设备的内存使用率超过门限阈值。

当设备在处理某些业务时可能在一段时间内造成内存使用率过高。正常情况下,一段时间后内存使用率就会恢复到正常情况。

Entitytrap/1/BOARDINVALID(错误码132625)

1.3.6.1.4.1.2011.5.25.219.2.2.5

Board is invalid for some reason

单板整体功能失效。

单板Lanswitch芯片故障。

单板复位后,如果告警未消除,则更换单板,如果仍然产生该告警,请联系技术支持人员

Entitytrap/1/BOARDINVALID(错误码132632)

1.3.6.1.4.1.2011.5.25.219.2.2.5

Board is invalid for some reason

单板整体功能失效。

单板PCI总线故障。

ENTITYTRAP/2/BOARDFAIL(错误码132124)

1.3.6.1.4.1.2011.5.25.219.2.2.3

Board become failure for some reason

单板局部功能失效。

I2C总线故障。

ENTITYTRAP/2/BOARDFAIL(错误码132127)

1.3.6.1.4.1.2011.5.25.219.2.2.3

Board become failure for some reason

单板局部功能失效。

板内时钟故障

ENTITYTRAP/2/BOARDFAIL(错误码132128)

1.3.6.1.4.1.2011.5.25.219.2.2.3

Board become failure for some reason

单板局部功能失效。

板内锁相环故障。

ENTITYTRAP/2/BOARDFAIL(错误码132131)

1.3.6.1.4.1.2011.5.25.219.2.2.3

Board become failure for some reason

单板局部功能失效。

DSP故障。

ENTITYTRAP/2/BOARDFAIL(错误码132137)

1.3.6.1.4.1.2011.5.25.219.2.2.3

Board become failure for some reason

单板局部功能失效。

芯片故障,包括TCAM、PIC、CPLD、RTC、EEPROM、温度芯片。

ENTITYTRAP/2/BOARDFAIL(错误码132171)

1.3.6.1.4.1.2011.5.25.219.2.2.3

Board become failure for some reason

单板局部功能失效。

设备所处环境温度过高,超过45°C。

降低设备的环境温度。

ASMNG/4/ASSLOTIDINVALID

1.3.6.1.4.1.2011.5.25.327.31.2.2.21

The new member of the AS has an invalid slot ID

AS新增成员设备的堆叠ID大于4。

SVF系统中,AS新增成员设备的堆叠ID大于4。

修改设备的堆叠ID小于或等于4。

BASETRAP/4/ENTITYRESET

1.3.6.1.4.1.2011.5.25.129.2.1.5

Physical entity is reset

单板复位。

单板异常。

查看是否同时收到单板插拔的告警。

ENTITYTRAP/3/OPTICALINVALID

1.3.6.1.4.1.2011.5.25.219.2.4.5

Optical Module is invalid

插入的光模块为非华为认证光模块。

插入的光模块为非华为认证光模块。非认证光模块冲击电流过大或功率过高,可能导致单板复位。如果是华为早期(2013年7月1日之前)发货的光模块,可能因为当时没有记录厂商信息而产生此告警。

如果不是华为认证光模块,建议更换华为认证的光模块。

如果是华为早期发货的光模块,则可以使用命令transceiver phony-alarm-disable关闭非华为认证光模块告警功能。

ENTITYEXTTRAP/2/VERSIONINCOMPATIBLE

1.3.6.1.4.1.2011.5.25.31.2.2.1

The board software version is incompatible with MPU

SPU板版本与主控板不兼容。

SPU板的启动版本与主控板版本不兼容。

更换SPU启动的软件大包,保持与主控板版本兼容。

说明:

建议采用如下措施帮助您更快速的搜索到准确的告警:

  • 由于“告警ID”唯一标识一条告警,建议您通过“告警ID”在《告警处理》手册中进行搜索,从而快速查找到对应告警的解释及处理步骤。
  • 对于一条ID相同的告警,如果触发原因不同,输出信息中通过携带不同的错误码(如BaseTrapProbableCause)来标识,这时,请通过错误码在《告警处理》手册中进一步搜索。
  • 也可以通过信息查询助手工具直接查询相关告警信息。

查询时请勿携带可变信息进行搜索,例如告警产生时间、接口编号、进程编号、设备命名等。

查看设备外观和环境

如果单板复位原因是单板与主控板之间通信异常,或者查看的告警中发现电源、风扇或温度类的告警,可通过检查设备部件和外部环境来排查。

排查单板未插紧导致的单板复位

如果单板复位原因为无心跳复位或与主控板间通信异常,可能原因是单板未插紧导致。

  1. 现场查看复位单板和主控板是否安装到位。
  2. 拔出复位单板,查看单板的连接器是否存在倒针。
  3. 如果以上两点均排除,可将单板安装到其它槽位或使用新单板来做交叉验证,排查是单板本身故障或机框故障。
  4. 如果仍无法排除故障,请联系技术支持人员
排查电源异常导致的单板复位
  1. 根据设备日志记录的reboot time,确认用户电网该时间段有没有突发掉电的情况,主要包括以下几个方面:

    • 是否人为操作导致的设备下电。
    • 如果是UPS供电,查看UPS的日志,在该时间段是否有异常记录。
    • 同一个机柜/同一个供电的网络内其他设备有没有过掉电。
    • 该时间段是否有大功率设备接入导致供电不足的情况。
    • 排查是否有线路老化、接触不牢导致掉电的情况。
    • 使用万用表测量输入电压是否正常。

    如果排查存在异常,按照排查的具体原因解决外部供电的问题。

  2. 如果确认外部电网没有问题,排查下交换机自身电源是否异常。检查电源模块是否被拔出或安装牢固。在条件允许的情况下,可以尝试更换电源槽位、交叉验证电源模块等手段确认是否电源模块自身故障。
  3. 如果交叉验证后故障都出现在同一设备,请联系技术支持人员
排查温度或风扇异常导致的单板复位
  1. 查看设备的工作环境温度是否正常(一般设备的工作环境温度为0°C~45°C),如果温度过高,应当降低机房的环境温度。
  2. 查看设备散热系统是否正常。查看设备的风道、风扇和防尘网,保证:

    • 设备的进风口(前侧和左侧)、出风口(后侧)无遮挡,有侧门将设备相互隔开。如果有阻挡,清除阻挡后观察设备的温度是否恢复正常。
    • 风扇运转正常。查看风扇模块是否被拔出或安装牢固,检查风扇模块的出风口是否有气流排出。
    • 防尘网状态正常,不会造成空气无法进入设备的情况。如果防尘网有阻塞请清洗或更换防尘网。

  3. 如果排查为风扇故障,可通过更换风扇模块解决。
  4. 上述步骤完成后仍无法定位,请联系技术支持人员

查看日志

如果通过以上步骤仍无法定位单板复位的原因,可通过查看设备日志进一步分析。

查看日志方法

设备在运行过程中,主机软件中的日志模块会对运行中的各种情况进行记录,从而形成日志信息。日志信息主要用于查看设备的运行状态、分析网络的状况以及定位问题发生的原因,为系统进行诊断和维护提供依据。

可以通过控制口或telnet方式登录到设备,使用命令display logbuffer查看保存在日志缓存中的内容,还可以在设备上对日志信息进行保存,使用syslog协议将日志信息输出到日志服务器。

# 使用命令display logbuffer查看Log缓冲区的所有日志信息。

<HUAWEI> display logbuffer
Logging buffer configuration and contents : enabled                  
Allowed max buffer size : 1024                                       
Actual buffer size : 512                                             
Channel number : 4 , Channel name : logbuffer                        
Dropped messages : 0                                                 
Overwritten messages : 0                                             
Current messages : 43                                                

Oct 16 2013 06:06:48 HUAWEI %%01VFS/4/DISKSPACE_NOT_ENOUGH(l)[3]:Disk space is insufficient. The system begins to delete unused log files. 
Oct 10 2013 19:06:48 HUAWEI %%01VFS/4/DISKSPACE_NOT_ENOUGH(l)[4]:Disk space is insufficient. The system begins to delete unused log files
  ---- More----
与单板复位相关的常见日志及处理方法
表1-4 与单板复位相关的常见日志及处理方法

信息摘要

日志含义

可能原因

处理方法

ALML/4/48V_CHECK_FAULT

传感器检测到单板两路48V电源告警。

单板的电源供电线路出现问题,单板无法上电。

确认电源是否在位。

如果电源在位,单板无法上电,请联系技术支持人员

ALML/0/BRD_PWOFF

风扇故障导致单板温度过高而掉电。

有可能风扇被拔出或者风扇故障停转。

执行display temperature all命令,通过“Status”字段查看设备的温度是否正常,通过“Temperature.(C)”字段查看设备各部件当前温度值。如果“Status”字段显示为minor,则执行下一步。

排除设备散热系统的异常。参考排查温度或风扇异常导致的单板复位

经过排除后单板温度仍然过高,请重新插拔单板,验证单板能否注册,如果不能注册,请联系技术支持人员

ALML/4/ENTPOWEROFF

单板被下电。

通过命令行power off slot slot-id将单板下电。

系统检测到电源功率不足,将单板下电。

如果是电源问题,参考排查电源异常导致的单板复位

ALML/4/ENTRESET

单板被复位。

命令行复位单板。

系统运行故障。复位原因可查看日志显示信息中的reason字段。

如果是非命令行复位,请观察日志描述的复位原因,联系技术支持人员

ALML/4/ENT_PULL_OUT

单板或者子卡被拔出。

人为拔出单板或者子卡。

单板或者子卡接口与插槽对接松动。

如果是人为拔出操作,则不需要处理。

如果是接口对接发生松动,则重新插入单板或者子卡。

ALML/4/HSB_SWITCH_CAUSE

记录主用主控板复位信息。

主控板复位的原因描述。具体情况如下:

Unknown switch reason:未知原因

VRP command force:命令行强制复位。

master MPU is no memory:主用主控板内存不足。

VRP find task deadloop:任务死循环。

Batch was not over:任务异常。

Master switch to slave Interrupt:主备倒换导致主用主控板复位。

Ecm Channel was faulty:以太网管理通道倒换(ECM)通道故障。

Monitor bus communication Interrupt:CANbus通信中断。

MPU board was pulled out:主控板被拔出。

请确认是否有人为插拔主控板。

请使用display current-configuration命令查看是否有“slave switchover”命令强制主备倒换。

联系技术支持人员

ALML/4/MASTER_TO_SLAVE

主用主控板变成备用主控板。

通过命令行slave switchover进行主备切换。(如果主用主控板因为异常重启变成备用,则不会上报这条日志)

通过命令行进行主备切换,不需要处理。

ALML/4/POWERSUPPLY_OFF

电源下电。

人为将电源下电。

电源异常不供电。

排查电源异常导致的单板复位

ALML/4/PWRFANABSENT

风扇不在位。

风扇不在位。

排查温度或风扇异常导致的单板复位

ALML/4/TEMP_UPPER

温度传感器监控到温度超过上限值。可能是排风不畅,防尘网堵塞,风扇故障,空闲槽位未插入假面板等原因引起的。

设备排风不畅,导致热量散发不畅。

防尘网堵塞。

空闲槽位未插入假面板。

设备所处环境温度过高。

设备的风扇数量不足。

设备的风扇发生故障。

排查温度或风扇异常导致的单板复位

FMEA/6/AVS_ABNORMAL

单板上的AVS电源异常。

单板硬件故障。

更换单板。

MAD/4/CONFLICT_DETECT

发现多主场景。

集群链路故障,出现多主。

修复集群链路故障。

MAD/4/MEMBER_LOST

检测集群邻居失败,集群分裂。

集群链路故障。

集群设备故障。

修复集群设备故障。

修复集群链路故障。

说明:

建议采用如下措施帮助您更快速的搜索到准确的日志:

  • 由于“信息摘要”唯一标识一条日志,建议您通过“信息摘要”在《日志参考》手册中进行搜索,从而快速查找到对应日志的解释及处理步骤。
  • 使用《日志参考》手册时,请勿携带可变信息进行搜索,例如日志产生时间、接口编号、进程编号、设备命名等。

举例如下:

对于出现的日志:Apr 27 2014 07:45:35 HUAWEI %%01SHELL/4/LOGIN_FAIL_FOR_INPUT_TIMEOUT(s)[6]:Failed to log in due to timeout.(Ip=10.135.19.157, UserNa me=**, Times=1, AccessType=TELNET, VpnName=)。使用信息摘要“LOGIN_FAIL_FOR_INPUT_TIMEOUT”在《日志参考》手册中即可搜索到对应的解释为“用户由于输入用户名或密码超时导致登录失败”。

联系技术支持人员

如果经过以上步骤仍无法定位单板复位原因,请收集相关故障信息,并将其提交给代理商或华为技术有限公司进行定位和处理。

需要收集的故障信息如下:

发生故障的时间、故障点的网络拓扑结构(例如故障设备连接的上下游设备、所处的网络位置)、导致故障的操作、故障后已采取的措施和结果、故障现象和影响的业务范围等信息。

发生故障的设备的名称、版本、当前配置、接口信息等,可使用一键信息采集

发生故障时产生的日志信息。

如果单板复位后无法正常注册,还需要收集在启动过程中的串口打印信息。

一键信息采集

通过display diagnostic-information命令可以获取设备的诊断信息,它集合了多条常用display命令的输出结果,包括设备的启动配置、当前配置、接口信息、时间、系统版本等,是一键采集的好方法。

设备提供了display diagnostic-information [ file-name ]命令,该命令可以将设备目前运行的诊断信息输出到屏幕或txt文件,如果不加file-name参数,就是将诊断信息输出到屏幕;如果加file-name参数,就是将诊断信息输出到以file-name命名的txt文件。建议将诊断信息输出到txt文件。该命令使用方法如下:

<HUAWEI> display diagnostic-information dia-info.txt
  This operation will take several minutes, please wait.........................
Info: The diagnostic information was saved to the device successfully.

txt文件的缺省保存路径为cfcard:/,用户视图下使用dir命令可以确认文件是否正确生成。

采用直接在屏幕的显示方式,如命令输出的诊断信息较长,可以通过按Ctrl+C停止。

另外,该命令主要用于问题定位,搜集系统诊断信息,搜集时可能会影响系统的性能(例如CPU占用率升高等)。因此,在系统正常运行时不建议执行该命令。并且,严禁在连接到设备的多个终端上同时执行该命令,否则可能造成设备的CPU占用率明显增高,导致设备性能下降。

目前常用的终端配置软件都提供了将显示信息输出到文件的功能,如Windows自带的超级终端:“传送 > 捕获文字”,输入保存的文件名后点击“启动”即可。完成配置后,直接执行display diagnostic-information命令,则会将所有诊断信息直接输出到显示终端屏幕上,并自动以文件形式保存到配置终端指定的路径下。

获取日志文件

设备支持日志和告警信息保存到日志文件中,用户可通过如下操作步骤获取日志文件中的日志信息:

  1. 执行命令save logfile,手动将日志文件缓存区中的信息保存到日志文件中。
  2. 执行完上述命令后,将cfcard:/logfile/下的文件通过FTP/TFTP传输到终端(PC)上。如果无法使用FTP/TFTP传输,可以通过more命令查看,如在用户视图下执行more logfile/log.log。
说明:
  • logfile文件夹下可能会有大量的日志文件,一般只需要采集故障发生时间点的日志文件。
  • 如果出现的故障涉及到备用主控板,备用主控板保存的日志文件也需要采集,备用主控板的日志文件保存在slave#cfcard:/logfile/下。
  • 如果涉及堆叠系统分裂和复位等故障,需要收集所有相关成员交换机中的日志文件。

相关信息

翻译
下载文档
更新时间:2019-07-23

文档编号:EDOC1100088147

浏览量:626

下载量:151

平均得分:
本文档适用于这些产品
相关版本
相关文档
Share
上一页 下一页