服务器RH5885H V3运行一段时间后出现smpboot: CPU1: Not responding,CPU无响应故障

发布时间:  2017-02-19 浏览次数:  332 下载次数:  0
问题描述

服务器RH5885H V3配置了两颗物理CPU,运行 oracle linux 6.5 一段时间后,系统启动界面出现smpboot: CPU1: Not responding;smpboot: CPU3: Not responding;smpboot: CPU5: Not responding,CPU无响应错误,使用FusionServer Tools-Toolkit挂载启动,启动界面仍然显示CPU1: Not responding。主机无告警,BMC显示硬件正常无告警日志,主机启动时自检正常。

告警信息

oracle linux 6.5启动告警图:

oracle linux 6.5启动告警

使用FusionServer Tools-Toolkit-V119挂载启动告警图:


处理过程

1.使用最小化测试思路,排查是哪颗物理CPU故障

2.经过单CPU测试,2颗物理CPU均正常

3.更换主板,排除主板故障;更换主板后单CPU系统正常,两颗物理CPU系统启动失败,显示smpboot: CPU1: Not responding;smpboot,CPU无响应。

4,拔掉所有后背板连接线缆,系统启动正常。

5.反复插拔后背板不同的连接线缆,排查到拔掉KVM的USB线缆主机系统启动正常

根因

根据主机BMC信息,主机部件最小化测试结果确认主机硬件无问题。后背板外接KVM的USB线缆混电故障,导致物理物理CPU在启动时,无法响应操作系统。从而导致系启动界面报警。

解决方案

与客户沟通,更换后背板KVM以及USB线缆,启动正常。

建议与总结

首先要登录BMC管理口查看故障告警以及事件日志记录,如无告警信息的情况下采取最小化测试的方法定位问题。

END