所选语种没有对应资源,请选择:

本站点使用Cookies,继续浏览表示您同意我们使用Cookies。Cookies和隐私政策>

提示

尊敬的用户,您的IE浏览器版本过低,为获取更好的浏览体验,请升级您的IE浏览器。

升级

华为服务器 故障处理 13

用于指导用户进行故障诊断和处理,以及日常的巡检工作。
评分并提供意见反馈 :
华为采用机器翻译与人工审校相结合的方式将此文档翻译成不同语言,希望能帮助您更容易理解此文档的内容。 请注意:即使是最好的机器翻译,其准确度也不及专业翻译人员的水平。 华为对于翻译的准确性不承担任何责任,并建议您参考英文文档(已提供链接)。
POST阶段异常

POST阶段异常

请根据以下故障现象进行诊断。

故障现象

处理步骤

快速恢复方法

通电不能进入待机状态(电源按钮指示灯黄色闪烁持续5分钟以上)

  1. 通过查看串口输出确认iMana 200/iBMC系统是否反复复位。

    当串口日志反复打印如下信息,表示iMana 200/iBMC系统反复复位。

    ### JFFS2 load complete: 1107083 bytes loaded to 0x8b000000 
      ## Booting kernel from Legacy Image at 8a000000 ... 
         Image Name:   linux-2.6.34 
         Image Type:   ARM Linux Kernel Image (uncompressed) 
         Data Size:    1511292 Bytes = 1.4 MiB 
         Load Address: 86008000 
         Entry Point:  86008000 
         Verifying Checksum ... OK 
      ## Loading init Ramdisk from Legacy Image at 8b000000 ... 
         Image Name:   Ramdisk Image 
         Image Type:   ARM Linux RAMDisk Image (uncompressed) 
         Data Size:    1107019 Bytes = 1.1 MiB 
         Load Address: 00000000 
         Entry Point:  00000000 
         Verifying Checksum ... OK 
         Loading Kernel Image ... OK 
      OK 
       
      Starting kernel ...
    说明:
    • E9000的CH140和CH140 V3计算节点无串口引出,请直接ping iMana 200/iBMC的IP地址,若一直ping不通或时通时不通,请执行快速恢复方法。若仍无法解决,请联系华为技术支持工程师。
    • 默认情况下,iMana 200/iBMC启动阶段,iMana 200/iBMC使用串口,启动完成后,切回系统串口。
  2. 联系华为技术支持工程师查询相关案例或更换主板。

对于机架服务器,请按照以下方法处理:

  1. 拔掉电源线后,重新插入电源线,上电服务器,确认iMana 200/iBMC是否可以恢复正常。
    • 是,更新iMana 200/iBMC原版本或者升级到更高的版本。
    • 否,若iMana 200/iBMC版本为1.91及以上,执行2;否则,执行3
  2. 在已经拔掉电源线的前提下,将跳线帽加在主板上丝印为Clear_BMC_PW的针脚上(尝试恢复iMana 200/iBMC出厂默认配置),重新连接电源线。
  3. 更换主板或BMC板。

对于E9000服务器,请按照以下方法处理:

  1. 请拔掉计算节点后,重新插入计算节点,确认iMana 200/iBMC是否可以恢复正常。
    • 是,更新iMana 200/iBMC原版本或者升级到更高的版本。
    • 否,若iMana 200/iBMC版本为1.91及以上,执行2;否则,执行3
  2. 在已经拔掉计算节点的前提下,将跳线帽加在主板上丝印为Clear_BMC_PW的针脚上(尝试恢复iMana 200/iBMC出厂默认配置),重新插入计算节点。
  3. 更换主板或BMC板。

待机不能上电(电源按钮指示灯黄色常亮)

  1. 收集iMana 200/iBMC日志,查询CPLD寄存器确认是否电源故障。
  2. 排查主板、CPU和内存是否安装正确。
  1. 拆除PCIe卡、HBA卡等外部设备。查看故障是否解决。
    • 是,处理完毕。
    • 否,执行2
  2. 仅保留服务器最小化配置,即仅保留CPU、主板和内存。查看故障是否解决。
    • 是,处理完毕。
    • 否,执行3
  3. 排查CPU、主板和内存是否故障,确认故障部件后进行更换。
说明:

若客户要求紧急进行恢复,可直接更换整机。

上电即掉电

  1. 收集iMana 200/iBMC日志,查询CPLD寄存器确认是否电源故障。
    说明:

    对于E9000服务器,建议通过MM910一键收集日志信息。

  2. 排查电源背板和主板是否存在故障。
  1. 检查外部供电环境是否正常,包括PDU或电源插排、电源模块和电源线。更换故障部件,查看故障是否解决。
    • 是,处理完毕。
    • 否,执行2
  2. 更换主板或电源背板。

上电即no signal

  1. 收集iMana 200/iBMC日志,查询CPLD寄存器确认是否电源故障。
    说明:

    对于E9000服务器,建议通过MM910一键收集日志信息。

  2. 通过iMana 200/iBMC命令行开启BIOS全打印,重启服务器,保存系统串口打印日志,故障复现后收集iMana 200/iBMC日志、下载BIOS的BIN文件。
  1. 执行ipmcset -d clearcmos命令,清除CMOS,查看故障是否解决。
    • 是,处理完毕。
    • 否,执行2
  2. 升级iMana 200/iBMC和BIOS。查看故障是否解决。
    • 是,处理完毕。
    • 否,执行3
  3. 拆除PCIe卡、HBA卡等外部设备。查看故障是否解决。
    • 是,处理完毕。
    • 否,执行4
  4. 仅保留服务器最小化配置,即仅保留CPU、主板和内存。查看故障是否解决。
    • 是,处理完毕。
    • 否,执行5
  5. 排查CPU、主板和内存是否故障,确认故障部件后进行更换。
说明:

若客户要求紧急进行恢复,可直接更换整机。

反复上下电

  1. 开启iMana 200/iBMC录屏。
  2. 通过iMana 200/iBMC命令行开启BIOS全打印,重启服务器,保存系统串口打印日志,故障复现后收集iMana 200/iBMC日志、下载BIOS的BIN文件。
  3. 恢复BIOS默认值,查看是否正常运行。
    • 如果恢复BIOS默认值后恢复正常,业务侧根据实际应用修改BIOS相关参数。
    • 如果恢复BIOS默认值后无效,则收集iMana 200/iBMC日志、下载BIOS的BIN文件,具体请参见对应版本的iBMC用户指南
说明:

对于E9000服务器,建议通过MM910一键收集日志信息。

POST随机界面卡住

  1. 截图当前屏幕。
  2. 收集iMana 200/iBMC日志,查询CPLD寄存器,确认是否电源故障。
  3. 通过iMana 200/iBMC命令行开启BIOS全打印。
  4. 开启iMana 200/iBMC录屏,重启服务器,保存系统串口打印日志,故障复现后收集iMana 200/iBMC日志、下载BIOS的BIN文件。
  5. 排查USB外设、CPU、硬盘、内存、PCIe设备。

RAID自检卡住

  1. 截图当前iMana 200/iBMC的KVM或本地KVM。
  2. 收集iMana 200/iBMC日志。
  1. 如果存在RAID卡固件错误,更换RAID卡或BBU电池/超级电容。查看故障是否解决。
    • 是,处理完毕。
    • 否,执行2
  2. 排查硬盘、硬盘背板或SAS线缆是否故障。
    • 是,更换故障部件。
    • 否,执行3
  3. 如果RAID组离线,则重新导入RAID组。查看故障是否解决。
    • 是,处理完毕。
    • 否,执行4
  4. 如果BBU电池或超级电容电量为空,则根据界面提示,按相关按键使系统保持运行状态,上电约30分钟后观察BBU电池或超级电容状态。若BBU电池或超级电容显示异常,请更换BBU电池或超级电容。

网卡PXE失败

  1. 确认网卡是否支持PXE。
  2. 查看BIOS PXE配置、网卡PXE(Ctrl+S)和网卡UMC功能是否启用。
  3. 排查网卡是否故障。
  4. 业务侧排查PXE网络环境。

根据处理步骤处理。

下载文档
更新时间:2019-01-23

文档编号:EDOC1000086281

浏览量:94089

下载量:37495

平均得分:
本文档适用于这些产品
相关文档
相关版本
分享
上一页 下一页