盒式路由器硬件故障处理
关于本文档
读者对象
本文档适用于负责管理和维护路由器设备的网络工程师。您应该熟悉您的网络,了解设备的硬件基本情况等。
符号约定
在本文中可能出现下列标志,它们所代表的含义如下。
符号 |
说明 |
---|---|
用于传递设备或环境安全警示信息,若不避免,可能会导致设备损坏、数据丢失、设备性能降低或其它不可预知的结果。 不带安全警示符号的“注意”不涉及人身伤害。 |
|
用于突出重要/关键信息、最佳实践和小窍门等。 “说明”不是安全警示信息,不涉及人身、设备及环境伤害信息。 |
命令行格式约定
在本文中可能出现下列命令行格式,它们所代表的含义如下。
格式 |
意义 |
---|---|
粗体 |
命令行关键字(命令中保持不变、必须照输的部分)采用加粗字体表示。 |
斜体 |
命令行参数(命令中必须由实际值进行替代的部分)采用斜体表示。 |
[ ] |
表示用“[ ]”括起来的部分在命令配置时是可选的。 |
{ x | y | ... } |
表示从两个或多个选项中选取一个。 |
[ x | y | ... ] |
表示从两个或多个选项中选取一个或者不选。 |
{ x | y | ... } * |
表示从两个或多个选项中选取多个,最少选取一个,最多选取所有选项。 |
[ x | y | ... ] * |
表示从两个或多个选项中选取多个或者不选。 |
&<1-n> |
表示符号&的参数可以重复1~n次。 |
# |
由“#”开始的行表示为注释行。 |
接口编号说明
本手册中出现的接口编号仅作示例,并不代表设备上实际具有此编号的接口,实际使用中请以设备上存在的接口编号为准。
修订记录
修改记录累积了每次文档更新的说明。最新版本的文档包含以前所有文档版本的更新内容。
- 文档版本 01 (2019-06-29)
简介
本文档介绍盒式路由器常见故障及其定位和解决措施,帮助您更好地使用和维护设备。
盒式路由器硬件故障最常见的是主控板STAT灯红色常亮,说明设备产生了告警,可以首先执行命令display alarm hardware查看设备产生的告警类型是单板相关还是光模块相关,由此来进行故障定位。单板和光模块这两类故障类型可分别查看如下两个章节。
若无主控板STAT灯红色常亮的现象,请根据具体故障现象直接查看如下两个章节。
盒式路由器单板故障定位
系统启动失败
故障现象
两块主控板的STAT指示灯的状态为一直绿灯闪烁或者常灭。
常见原因
- 主控板没插牢
- 内存不可用
- Cfcard读写错误
- Cfcard中没有存放大包
故障处理步骤
- 检查单板是否插牢。
将主控板的console口连接至电脑的COM口,使机框上电。在终端的串口打印信息中,如果显示信息出现full in和POST failed等字样,应检查单板是否插好。
Press Ctrl+B to enter bootload Menu…0 reset mode reg value = 0x7 reset mode = 0x2 full in . . . . . . . . . . . . . . . . . . . . . . . .fail dev_name: eTSEC1 waiting for auto negotiation to complete... Speed 1000, full duplex recv seq num:1 !!!POST failed, reset board...
如果确认单板已插牢,请执行步骤2。
- 在串口打印信息中,出现“Press CTRL+T for full memory test”信息时,立即按住CTRL+T,内存将全检,全检完后如有pass字样,说明内存正常。如果内存全检通过,请执行步骤3。否则内存异常,应更换主控板。
- 检查Cfcard是否读写故障。
CFcard出现读写故障时,一般会出现如下所示的现象,应该是CFcard硬件故障,应更换主控板。
scan usb storage failed, reset usb and try again fail_count = 1 USB: Register 10011 NbrPorts 1 USB EHCI 1.00 scanning bus for devices... 1 USB Device(s) found scanning bus for storage devices... 0 Storage Device(s) found
如果确认Cfcard没有读写故障,请执行步骤4。
- 检查Cfcard上的大包是否存在。
在串口信息出现“Press Ctrl+B to enter bootload Menu”时,立即按住Ctrl+B,出现bootload菜单。选择第6选项,进入cfcard查看菜单,再选择列出板内文件和目录,如果文件列表中有.cc文件,说明CfcardCC大包存在,否则,应上传大包。
Bootload Menu(Hiboot Version: 04.00) 1. Boot with default mode 2. Boot from CFcard 3. Enter ethernet submenu 4. Set boot file and path 5. Modify boot ROM password 6. List file in CFcard 7. Modify System and Chassis Parameters 8. Modify start mode 9. Clear password for console user 10. Reboot 11. Enter TPM Submenu Enter your choice(1-11): 6
- 如果故障仍未排除,请收集如下信息,并联系华为技术支持工程师。
- 上述步骤的执行结果。
- 设备的配置文件、日志信息、告警信息。
备用主控板无法注册
故障现象
主控板的STAT灯状态为一直绿色闪烁或者常灭。或通过display device命令查看主控板状态为Abnormal且Unregistered。
常见原因
- 备用主控板在启动时间内。
- 备用主控板加载的系统软件大包和主用主控板不一致。
- 备用主控板未插牢。
- 备用主控板内存故障。
- 系统软件异常。
故障处理步骤
- 检查备用主控板是否处于启动时间内。
单板从加电到完成注册需要一段时间,这段时间叫做启动时间。
MPU的启动时间一般在3分钟之内,如果是升级系统软件后重新启动设备,启动时间最长不超过20分钟。
如果没有超过单板启动时间,则需要等待。如果超过单板启动时间单板仍然无法注册,请继续执行步骤2。
- 确认单板是否上电。
在用户视图下,执行power on slot slot-id命令给备用主控板上电。如果执行该命令后单板仍无法注册,请继续执行步骤3。
- 确认备用主控板加载的系统软件大包是否和主用主控板一致。
连接备用主控板的Console口中,查看Console口信息反馈项中的“The start file is”所指定的系统软件大包文件是否和主用主控板一致。
如果系统软件大包不一致,请执行步骤8。
如果系统软件大包一致,而单板仍然无法注册,请继续执行步骤4。
- 拔插主控板。
- 拔出主控板,检查主控板的连接器是否完好,背板是否存在倒针。如果存在倒针,请更换背板。
- 插入主控板,保证主控板连接器和背板连接完好,查看主控板是否可以正常启动。
若拔插主控板后仍然无法启动,请继续执行步骤5。
- 互换主控板槽位。将故障主控板更换至其它槽位,查看是否可以正常注册。若仍无法启动,请继续执行步骤6。
说明:
请在设备上没有业务运行时执行此操作,否则会造成业务中断。
- 确认内存是否故障。
将备用主控板下电后,将备用主控板拔出。等待30秒后,将刚拔出的备用主控板的console口连接至电脑的COM口,并将此板重新插入机框,使其上电。当终端上的串口打印信息出现“Press CTRL+T for full memory test ................2”时,按Ctrl+T对单板的内存进行全检。
检测完成后,若内存有故障,会给出错误的信息(包含有fail字样),则需要更换单板解决。
说明:
如果终端上没有信息显示出来,则说明内存有故障,也需要更换单板。
更换单板后如果仍无法注册,请继续执行步骤7。
- 执行命令startup system-software system-file重新指定下次启动的系统软件,确认当前系统软件是否存在异常。重启设备,若重启后主控板仍无法注册,请继续执行步骤8。
- 请收集前面操作步骤的信息,联系技术支持人员进行处理。收集的信息如下:
- display diagnostic-information
- display alarm hardware
- display elabel
- 电源、单板的指示灯状态
- 用户日志文件以及诊断日志文件
接口板无法注册
故障现象
主用主控板STAT灯红色常亮。接口板STAT灯状态为黄色常亮或者常灭。或者通过display device命令查看接口板状态为Abnormal且Unregistered。
常见原因
- 单板在启动时间内。
- 接口板未插牢。
- 接口板故障。
- 接口板型号不支持。
故障处理步骤
- 检查单板是否处于启动时间内。
单板从加电到完成注册需要一段时间,这段时间叫做启动时间。
接口板的启动时间在不需要更新系统软件和相关文件的情况下,不超过5分钟,如果接口板需要更新系统软件和相关文件,启动时间不超过10分钟。
如果没有超过单板启动时间,则需要等待。如果超过单板启动时间单板仍然无法注册,请继续执行步骤2。
- 检查告警信息。
执行命令display alarm hardware,查看该接口板是否存在告警,如果存在电压或器件告警,则可以判定为接口板故障,需要更换接口板。
如果更换接口板后仍无法注册,请继续执行步骤3。
- 检查接口板型号是否支持。
通过接口板拉手条右上角纸质标签或读取接口板的电子标签确认接口板的型号,然后再通过命令display version查询设备的软件版本,确认当前软件版本是否支持该接口板。
具体软件版本可以支持的接口板型号可参考具体产品的《硬件描述》的“单板”章节。
如果接口板是软件版本支持的型号,请继续执行步骤4。
- 确认单板是否上电。
在用户视图下,执行power on slot slot-id命令给单板上电。如果执行该命令后单板仍无法注册,请继续执行步骤5。
- 拔插接口板。
接口板和主控板之间通过板间通讯通道连接,如果通讯通道不通,接口板无法启动,建议通过如下步骤处理:
- 拔出接口板,检查接口板的连接器是否完好。如果连接器上存在多余的小孔,可以判断是接口板连接器损坏。此时需要观察背板对应槽位是否存在倒针(连接器的插针发生弯曲或折断的现象),如果存在倒针,请更换背板。
- 插入接口板,保证接口板连接器和背板连接完好,查看接口板是否能够注册。
如果拔插接口板后仍无法注册,请继续执行步骤6。
- 互换接口板槽位。
将故障接口板更换至其它槽位,查看是否可以正常注册:
- 如果不能注册,请继续执行步骤7。
- 如果可以注册,将另一块可以注册的接口板插入此故障槽位,查看是否可以注册。如果不能注册,则可以判断此槽位故障,故障点可能为背板或主控板。
- 拔插主控板。
在双主控环境下,可以先拔插备用主控板,并按照步骤5的方法检查主控板连接器的情况,再执行主备倒换后拔插另一块主控板。如果通过拔插主控板可以解决问题,可以确认是主控板和背板的接插问题。由于该操作有风险,业务重要的环境不建议做此操作。
- 单板上电后立即进入诊断视图,执行命令set output-mode board open slot slot-id [ mbus-sol | 2400 | 9600 | 19200 | 38400 | 57600 | 115200 | 187500 ]收集启动打印信息。
上述命令的执行,需要在单板启动过程中操作。即通过命令行power on给单板上电后或插拔单板后执行该命令。
<HUAWEI> system-view [~HUAWEI] diagnose [~HUAWEI-diagnose] set output-mode board open slot 9 9600 ************************************************************ * Welcome To Enter Slot(9) SOL SERVER * * If you want to quit, please press CTRL+K * * All rights reserved (2010-2011) * ************************************************************ Boot area 0 Reset times is 3 Reset cause :cpu reset,scc b reset,power on reset, Last fiq: not ocurred[0x0] Totem C CLUSTER L1/L2 Cache Mbist end! Totem C LLC Mbist OK! Totem C HHA:OK Boot firmware (version iWare uniBIOS V2R1 SPC021B010) CPU info for Socket 0 Nimbus PLL0 : 1000MHz PLL1 : 800MHz PLL2 : 1200MHz PLL3 : 625MHz PLL4 : 650MHz CPU info for Socket 0 TC CPU : 2000MHz SC PLL2 : 933MHz SC PLL3 : 933MHz SC PLL4 : 800MHz SC Wafer ID: 17
- 请收集前面操作步骤的信息,联系技术支持人员进行处理。收集的信息如下:
- display diagnostic-information
- display power slot
- display alarm hardware
- display elabel
- 电源、单板的指示灯状态
- 用户日志文件以及诊断日志文件
- 步骤8收集的启动打印信息
主控板或接口板异常重启
故障现象
接口板重启影响了业务;网管上有单板异常重启历史告警。
常见原因
- 命令行重启或下电。
- 单板软件或硬件异常。
故障处理步骤
- 在诊断视图下通过命令display board-reset slot-id查看单板重启原因。
<HUAWEI> system-view [~HUAWEI] diagnose [~HUAWEI-diagnose] display board-reset 9 Board 9 reset information: -- 1. DATE:2018-01-21 TIME:03:20:52+04:00 BARCODE:030QAF10D7000030 RESET Num:0 -- Reason:Board register, BarCode is 030QAF10D7000030. -- BootMode:NORMAL -- BootCode:0x060100ff
- 根据查询到的重启原因,按照表1-1所示的建议操作进行处理。
表1-1 单板重启原因及建议操作
重启原因描述
重启原因说明
建议操作
用户相关:
Power off board from command.
命令行或网管重启。
确认是否因命令行重启或下电单板。
Reset board from PIC command.
Reset the chassis from command.
Canbus request to power off the board.
加载相关:
EPLD is upgrade,and reset board.
EPLD逻辑加载后重启。
正常。
Board update by JTAG, and reset board.
通过监控系统jtag通道升级后重启。
Board update mbus, and reset board.
升级mbus后重启。
软件异常相关:
Board task exception occurs and reset lpu.
检测到软件异常重启。
请收集日志、诊断日志和诊断命令display service-diagnostic-information的信息,联系技术支持人员处理。
Board task deadloop occurs and reset lpu.
检测到死循环重启。
请收集日志、诊断日志和诊断命令display service-diagnostic-information的信息,联系技术支持人员处理。
Component report failure.
组件上报失败。
通过诊断命令display reportfailure show_num [ begin_num ] [ verbose ] [ all | slave | slot slot-id ]查看具体的原因,并请收集日志、诊断日志和诊断命令display service-diagnostic-information的信息,联系技术支持人员处理。
Multiple-bit ECC check error, and reset board.
芯片发生了软失效。
请收集日志、诊断日志和诊断命令display service-diagnostic-information的信息,联系技术支持人员处理。
设备管理相关:
The heartbeat lost and reset board.
主控板未收到单板心跳报文。
请收集日志、诊断日志和诊断命令display service-diagnostic-information的信息,联系技术支持人员处理。
Semls register failed, and reset board.
检测到单板长时间未成功注册。
收集故障单板在启动过程中的串口打印信息,联系技术支持人员处理。
硬件器件相关:
Slave mpu is not compatible with the master, and power off board.
硬件不适配错误。
请更换备用主控板与主用主控板一致。
This version does not support the type of board, and power off the board.
请拔出单板,更换为该版本设备/槽位支持的单板。单板和槽位支持情况可参考对应版本的《硬件描述》的“单板”章节。
Board is incompatible with chassis, and power off board.
Board is incompatible with slot, and power off board.
盒式路由器光模块故障定位
常见光模块问题定位方法
- 查看光模块型号,若为非华为路由器认证光模块,建议更换至华为路由器认证光模块。
- 在接口视图下使用display interface [ main | interface-type1 [ interface-number ] | slot slot-number ]命令查看光模块对接时的端口信息,查看速率、波长等信息,根据查看结果与产品手册中光模块信息对比是否一致。
- 使用光功率器对该端口的收光功率RX POWER进行测试,根据测试情况进行判断。
说明:
如果没有光功率器,可通过更换同类型的、没问题的光模块交叉确认是否光模块有问题;也可通过执行display interface [ main | interface-type1 [ interface-number ] | slot slot-number ]命令查看光模块发送或接收光功率方面的信息,与产品手册中的光模块信息进行对比判断。
- 采用单根光纤自环该端口,查看端口是否能UP。
说明:
10km及其以下长度的光纤可以直接自环,10km以上长度的光纤,需要增加光衰。
- 查看对接设备的端口设置,比如端口的自协商等信息。
- 根据以上各步骤分析故障原因,如确认是非华为路由器认证光模块,建议更换为华为路由器认证的光模块;如因使用环境、配置等原因,建议对环境、配置进行改善,如仍不能解决,建议联系技术支持人员协助解决。
设备上所有的光模块都读不出信息,但业务正常
故障现象
通过display interface命令查询不到光模块信息或者通过display elabel optical-module interface interface-number 命令查询不到光模块电子标签信息。
常见原因
- 光模块非华为路由器认证光模块
- 光模块没有插牢
- 光模块故障或设备异常
故障处理步骤
- 首先确认光模块是否是华为路由器认证的光模块,如非华为路由器认证光模块,请直接联系该光模块厂家协助解决。
- 在条件允许的情况下,可以将该光模块重新插拔,看是否能恢复至正常状态。
- 如仍不能解决该问题,建议有条件可以执行reboot重启与下电重启。如reboot后仍不能解决该问题,建议查询现网设备的软件版本,如软件版本不为最新,建议将设备软件版本升级到最新版本。
插拔光模块、重启设备、升级版本会影响设备的业务,请谨慎操作。
- 以上操作皆不能恢复至正常状态,建议联系技术支持人员协助解决。
光模块不发光或者发光光功率过小
故障现象
用光功率器测试光模块,与产品手册中光模块的发光功率参数值进行对比,发现光模块发送光功率过小。或者通过display interface命令查看回显信息,显示光模块的Tx光功率低于告警门限值。
常见原因
- 光口受污染
- 光模块故障
故障处理步骤
- 检查光模块光口,如果接口处受到污染如存在灰尘等,此时请用棉签清洗光模块,然后再测试光口发光功率是否恢复正常。对于不使用的光模块,需配戴防尘帽。
- 如果清洁光模块的接口后光功率还是不正常,请交叉验证光模块,如果确认原光模块自身故障,请返修光模块或联系技术支持人员。
光模块发光光功率正常,但有误码丢包过多
故障现象
设备对端网管上报CRC误码告警,或者通过display interface interface-type interface-number extensive命令输出信息的Output字段显示本端端口下错包计数过多。
常见原因
- 光纤接头损耗过大或光纤本身弯曲过大等问题
- 光模块故障
故障处理步骤
- 直接用光功率器测试该光模块的接收光功率,与产品手册中的光模块信息进行对比,判断是否正常。
说明:
测试接收光功率必须在靠近光纤的接收端测试。
- 若接收光功率确实过小,需检查是否光纤链路问题。更换光纤,查看对端是否仍上报误码告警。
- 若仍未解决,请交叉验证光模块,如果确认原光模块自身故障,请返修光模块或联系技术支持人员。
设备之间光模块对接不通
故障现象
两个光接口通过光纤对接,端口Down,光模块对接不通。
常见原因
- 使用的光模块不是经过华为路由器认证的光模块。
- 光模块和光纤不匹配。
- 端口被shutdown。
- 两端端口配置不一致。
- 发送光功率过低或者过高。
- 接收光功率过低或者过高。
- 光模块故障。
故障处理步骤
- 确认该光模块是否是经过华为路由器认证的,建议设备使用华为路由器认证的光模块,非认证光模块可靠性无法保证,可能导致端口无法UP。
说明:
可通过查看光模块的外观标签上是否有华为标识:
- 如果有,说明该光模块是经过华为路由器认证的光模块。
- 如果没有,请将光模块的型号发给技术支持人员确认。
- 检查光模块和光纤是否匹配。
- 单模光模块(一般波长为1310nm、1550nm)对应单模光纤(一般是黄色)。
- 多模光模块(一般波长为850nm)对应多模光纤(一般是橙色)。
- 检查本端和对端设备的端口配置。通过在端口下执行命令display this interface查看两端的带宽和自协商模式是否一致。若不一致,请修改配置,保持两端一致。
- 执行命令display optical-module { extend | base } information interface { interface-type | interface-number }或display optical-module { extend | base } information slot slot-id pic pic-id查看光模块工作状态是否正常,结合display alarm hardware查看光模块告警信息。
<HUAWEI> system-view [HUAWEI] diagnose [HUAWEI-diagnose] display optical-module extend information interface GigabitEthernet 0/7/0 ============================================================================== Transceiver Digital Diagnostic Monitoring (DDM), Externally Calibrated =============|================================================================= Card7-Port0 + Value HighAlarm HighWarn LowWarn LowAlarm Status -------------|----------------------------------------------------------------- Temperature(C) 48.500 80.000 75.000 -5.000 -10.000 Normal Supply Voltage(V) 3.293 3.700 3.630 2.970 2.850 Normal Tx Bias(mA) 21.600 58.091 48.091 4.762 4.762 Normal Tx Power(avg dBm) -6.106 -3.103 -4.102 -8.102 -9.104 Normal Rx Power(avg dBm) -4.025 -3.000 -3.000 -19.030 -19.030 Normal =============|================================================================= <HUAWEI> display alarm hardware Index Level Date Time Info 1 critical 2018-10-27 14:58:18 GigabitEthernet0/4/4 is failed, the optica l module on card was removed -------------------------------------------------------------------
光模块告警信息中,可以查看光模块告警原因。
- 如果接收功率低,说明本端接收到的信号过低,则可能出现端口不UP或者UP后报文收发有丢弃,此时请先排查传输距离是否过远,超出了该光模块的传输距离,再排查光模块、光纤是否有损坏。
- 如果接收功率高,说明本端接收到的信号过高,可能原因是该光模块为长距光模块,而实际传输距离太短,导致信号未衰减,此时应在光模块上增加光衰,以对光模块进行保护。
- 如果发送功率低,说明该光模块发送信号不好或光模块本身故障,可能会导致对端接收功率低,而造成端口不UP或者UP后报文收发有丢弃,请与技术支持人员联系。
- 如果发送功率高,说明该光模块发送信号太强,可能会导致对端接收功率高,而造成对端光模块因接收功率持续过高而烧坏,可能原因是本端光模块故障,建议更换光模块。
因此,在端口插入光模块并对接成功后,要对发送或接收光功率方面的告警信息进行排查,避免因功率过低或者过高造成流量或者光模块不正常。
- 如果两端均没有告警信息,采用单根光纤自环该端口。
说明:
10km及其以下长度的光纤可以直接自环,10km以上长度的光纤,需要增加光衰。
- 如果自环端口不UP,则更换光模块后再尝试,如果仍不UP,说明设备故障,请与技术支持人员联系。
- 如果自环端口UP,则排查对端设备和链路故障。
- 尝试更换光纤或光模块,看端口是否UP。
- 如果端口UP,说明原光纤或光模块故障,需更换新光纤或光模块。
- 如果端口不UP,请与技术支持人员联系。