所选语种没有对应资源,请选择:

本站点使用Cookies,继续浏览表示您同意我们使用Cookies。Cookies和隐私政策>

提示

尊敬的用户,您的IE浏览器版本过低,为获取更好的浏览体验,请升级您的IE浏览器。

升级

华为服务器 故障处理 13

用于指导用户进行故障诊断和处理,以及日常的巡检工作。
评分并提供意见反馈 :
华为采用机器翻译与人工审校相结合的方式将此文档翻译成不同语言,希望能帮助您更容易理解此文档的内容。 请注意:即使是最好的机器翻译,其准确度也不及专业翻译人员的水平。 华为对于翻译的准确性不承担任何责任,并建议您参考英文文档(已提供链接)。
OS问题

OS问题

OS安装问题

OS安装相关的故障,请根据以下情况进行诊断。

诊断思路

诊断步骤

可安装的OS选择问题

通过华为服务器 兼容性查询助手检查OS是否与服务器兼容。

OS安装方式问题

通过华为服务器 兼容性查询助手查询OS是否与服务器兼容以及对应OS的安装说明,OS安装说明也可参见华为服务器操作系统安装指南》。

ServiceCD问题

  1. 通过华为服务器 兼容性查询助手确认该OS是否需要ServiceCD引导。
  2. 检查使用的ServiceCD版本是否合适。
  3. 检查使用的ServiceCD的安装模式是否合适。

OS安装过程中的问题

  1. 请参考华为服务器操作系统安装指南,检查OS安装步骤是否正确。
  2. 检查OS是否对安装介质有特定要求,比如是否要求必须使用物理光驱。
  3. 检查OS是否要求对OS安装盘有特定要求,比如是否要求必须合入某些驱动。
  4. 检查OS安装盘是否是原厂光盘,是否有第三方做过修改。
  5. 检查是否有外部存储空间,如果有,请尝试断开外部存储。
  6. 检查BIOS配置是否经过修改,如果有,请尝试恢复BIOS默认值。
  7. 向OS厂商获取标准的安装支持。

硬盘识别问题

  1. 检查RAID控制卡下是否可识别到目标硬盘,通过华为服务器 兼容性查询助手查询目标硬盘是否兼容;检查BIOS中是否可以识别到目标存储设备(包括SATADOM、SD卡、内置U盘等)。
  2. 检查RAID控制卡型号,确认是否需要配置RAID(LSI SAS1078扣卡、LSI SAS2108扣卡、LSI SAS2208扣卡、LSI SAS3008卡、LSI SAS2308扣卡、LSI SAS3108卡、Avago SAS 3408卡、Avago SAS 3416iMR卡、Avago SAS 3416IT卡、Avago SAS 3508卡、软件RAID配置)。
    说明:

    V5服务器支持将OS安装在RAID标卡下的硬盘。

  3. 检查RAID控制卡配置,确认启动盘与目标盘是否为同一硬盘或者RAID组。
  4. 检查硬盘是否超过2TB,如果是,请将BIOS设置成UEFI模式。
    说明:

    V1和V3单板不支持UEFI模式。

  5. 检查硬盘是否是4K盘。
  6. 检查RAID控制卡型号,确认是否正确加载RAID控制卡驱动。
  7. 检查硬盘上是否有残留数据影响安装,可以尝试把硬盘格式化,或者重新配置RAID组。

OS故障问题

界定OS故障问题之前,请排查是否是其他故障问题,再根据以下步骤进行诊断。

故障现象

诊断方法

诊断结论

服务器挂起或重启

关闭BIOS中C、P、T、ASPM,服务器运行正常。

OS版本不支持本平台CPU问题

系统挂起堆栈信息有对应挂起进程名称或者板卡厂家名称。(例如“FC_XX”是FC的挂起等。)

OS自带驱动兼容性问题

排查是否是PCIe板卡兼容性问题:

  • 一个板卡供电问题(有时iMana 200/iBMC出现“cat err”)
  • PCIe协议不支持
  • 驱动问题

PCIe板卡兼容性问题

“CPUidle”出现在OS最后一屏信息中。

说明:

G2500服务器暂不支持。

OS内核与硬件平台兼容性问题

说明:

G2500服务器暂不支持。

通过iMana 200/iBMC查找硬件报错位置,例如内存位置,硬盘位置和主板部件。

硬件电路部件故障问题

OS日志出现文件系统只读挂起,通过FusionServer Tools-Toolkit引导自检系统对硬盘打分,依据结果判断是否需要更换硬盘碟片。

硬盘碟片故障问题

iMana 200出现“imana cat err”告警信息,通过iMana 200的fdm日志分析对应故障部件。

硬件部件故障问题

Machine Check Exception问题。通过查看“/var/log/mce.log”和串口挂起堆栈信息错误码,找到对应故障点。

  • 硬件故障问题
  • 软硬件接口设置问题

请先在现场收集以下信息:

  • 如果是新交付的服务器,确认出现问题的服务器比例,检查异常服务器和正常服务器的配置是否一致。
  • 如果是已经上线一段时间的服务器,确认出现问题的服务器数量,查看问题出现是否具有规律性。
  • 检查iMana 200/iBMC是否存在硬件告警。

通过前述信息咨询,再次确认是单机问题还是硬件问题,运行FusionServer Tools-Toolkit自检一轮,依据报告结果确认问题。

依据报告结果确认硬件故障点

近期软件升级(包括客户业务软件、数据库、中间软件、内核、主机软件BIOS、HMM板、iMana 200/iBMC和存储软件变更等)开始出现规律性宕机。

  • 新版本软件bug问题
  • 裁剪原有接口,导致异常

“update_cpu_power”或“divide_error”、“timer_xx”出现在挂起最后一屏堆栈信息中。(周期性)

说明:

G2500服务器暂不支持。

OS自身bug,内核设计缺陷问题。

“gethostbyname”出现在挂起最后一屏堆栈信息中。(无周期性)

说明:

G2500服务器暂不支持。

“CPUidle”出现在OS挂起最后一屏信息中。

说明:

G2500服务器暂不支持。

OS内核与硬件平台兼容性问题

下载文档
更新时间:2019-01-23

文档编号:EDOC1000086281

浏览量:93917

下载量:37491

平均得分:
本文档适用于这些产品
相关文档
相关版本
分享
上一页 下一页