RH2485 V2服务器无法开机处理案例

发布时间:  2017-02-20 浏览次数:  279 下载次数:  2
问题描述

服务器无法开机。

告警信息

RH2485 V2服务器已宕机,不能进入BMC管理平台,服务器前面板有红灯告警。

处理过程

1.  首先更换服务器主板(更换主板时应特别注意不要损坏CPU插槽的顶针,在拆卸损坏主板的CPU后,立即盖上CPU保护盖,将CPU同步换到新主板上,重复上述过程更换所有CPU)。

2.  更换主板完成后对服务器进行上电,发现服务器BMC可以正常启动,登录BMC管理平台,远程连接客户服务器操作系统,发现无法连接。

3.  通过BMC管理平台显示服务器没有故障告警信息,通过BMC查看系统硬件配置,发现CPU识别数量异常,管理平台显示的CPU数量和服务器实际配置的CPU数量不一致,怀疑CPU故障。

4.  由于之前未申请CPU备件,现场只能采用最小化实验(采用最精简配置启动服务器),测试CPU是否损坏。

5.  本次服务器型号为RH2485 V2,最精简配置至少需要2CPU2条内存( 其它型号服务器视具体情况而定)。RH2485 V2服务器最精简配置至少需要保留主板上CPU槽位1和槽位2CPU,并保留两个CPU槽位相对应的优先级最高的内存通道的内存(具体CPU槽位对应的优先级最高的内存通道请参考华为RH2485 V2服务器产品文档)http://support.huawei.com/ehedex/hdx.do?docid=DOC1000010815&lang=zh&clientWidth=1520&browseTime=1487598154372,使用最精简配置服务器后发现服务器可以正常启动,通过BMC远程连接客户业务操作系统,操作系统可以正常启动。

6.  根据最小化实验,采用最精简配置RH2485 V2服务器可以判定服务器保留的CPU和内存并没有发生故障,所以如果需要判定故障的CPU可以尝试每次只更换服务器主板上CPU槽位1CPU,然后启动服务器,如服务器不能启动,则可以确定故障CPU,再申请CPU备件更换。(如果CPU未发生故障可采用相同的方法排查内存是否故障)

7.  为服务器更换了故障主板和CPU后,服务器可以正常启动,并且和客户验证业务系统正常后,服务器故障解决

8.  由于客户服务器加装了独立显卡,并且为服务器更换了主板,服务器默认显卡模式为集成显卡,需要进入bios里将显卡模式改为独立显卡。

bios里将显卡模式改为独立显卡方法:

重启服务器,按del键进入BIOS

Advanced->PCI Configuration里找到Onboard Video,把它设置成AutoDisable.

根因

服务器无法开机,客户反映可能有非常规断电情况,怀疑服务器可能主板损坏,可能CPU损坏,可能内存损坏或者其它硬件损坏。服务器无法开机,客户反映可能有非常规断电情况,怀疑服务器可能主板损坏,可能CPU损坏,可能内存损坏或者其它硬件损坏。

解决方案

1.  首先更换服务器主板(更换主板时应特别注意不要损坏CPU插槽的顶针,在拆卸损坏主板的CPU后,立即盖上CPU保护盖,将CPU同步换到新主板上,重复上述过程更换所有CPU)。

2.  更换主板完成后对服务器进行上电,发现服务器BMC可以正常启动,登录BMC管理平台,远程连接客户服务器操作系统,发现无法连接。

3.  通过BMC管理平台显示服务器没有故障告警信息,通过BMC查看系统硬件配置,发现CPU识别数量异常,管理平台显示的CPU数量和服务器实际配置的CPU数量不一致,怀疑CPU故障。

4.  由于之前未申请CPU备件,现场只能采用最小化实验(采用最精简配置启动服务器),测试CPU是否损坏。

5.  本次服务器型号为RH2485 V2,最精简配置至少需要2CPU2条内存( 其它型号服务器视具体情况而定)。RH2485 V2服务器最精简配置至少需要保留主板上CPU槽位1和槽位2CPU,并保留两个CPU槽位相对应的优先级最高的内存通道的内存(具体CPU槽位对应的优先级最高的内存通道请参考华为RH2485 V2服务器产品文档)http://support.huawei.com/ehedex/hdx.do?docid=DOC1000010815&lang=zh&clientWidth=1520&browseTime=1487598154372,使用最精简配置服务器后发现服务器可以正常启动,通过BMC远程连接客户业务操作系统,操作系统可以正常启动。

6.  根据最小化实验,采用最精简配置RH2485 V2服务器可以判定服务器保留的CPU和内存并没有发生故障,所以如果需要判定故障的CPU可以尝试每次只更换服务器主板上CPU槽位1CPU,然后启动服务器,如服务器不能启动,则可以确定故障CPU,再申请CPU备件更换。(如果CPU未发生故障可采用相同的方法排查内存是否故障)

7.  为服务器更换了故障主板和CPU后,服务器可以正常启动,并且和客户验证业务系统正常后,服务器故障解决。

建议与总结

服务器无法开机的故障原因可能多种多样,我们应首先排除主板,CPU,内存的故障,如还不能解决问题再排查其它故障。

END