Tecal RH5485 更换主板或I/O板后系统不能开机(无告警)

发布时间:  2014-09-20 浏览次数:  255 下载次数:  3
问题描述
Tecal RH5485 更换主板或I/O板后按开机按钮,系统不能正常启动。登陆IMM 开机发现系统不能开机 ,
告警信息
无告警 
处理过程
更换主板或I/O板后,一般固件版本会出现不匹配,固件包括IMM(位于I/O板上)、UEFI(位于CPU板上)、FPGA(位于/O板和CPU板上)和pDSA(即DSA Preboot,位于I/O板上)
UEFI、FPGA、IMM是通过他们的发布时间来确认是否匹配的同一版本,发布时间相同则为匹配的版本,他们的版本号不一定相同。

步骤一:首先设备上电后登陆IMM 点击Viral Product Data 查看固件版本



如上图:可能会存在一个或多个固件版本不匹配。固件版本匹配的请跳过此步进入步骤二
   登陆如下网址,下载并升级配套软件,UEFI因为需要系统开机升级,系统不能开机的情况下最后升级。(升级请参看附件指导书) http://support.huawei.com/enterprise/softdownload.action? idAbsPath=fixnode01|7919749|9856522|9856792|4078646&pid=4078646&vrc=4085471|4085473|9857653&show=showVDetail&tab=bz&bz_vr=4085473&bz_vrc=&nbz_vr=null
按照附件指导书依次升级IMM FPGA DSA 后重启服务器,按开机按钮系统可以开机则升级UEFI 开机OK ,不能开机进入步骤二

步骤二:
   1.设备最小化测试,将主板上HBA卡 ,内存,以及RAID卡等全部拆除,仅保留一个电源和一个CPU (位置CPU1),设备上电后登陆IMM 查看系统是否可以开机,如果依然无法开机,尝试更换CPU和电源,依然不能开机可能更换主板有异常请重新申请主板更换。
   2.一个电源和一个CPU 可以正常开机,则升级UEFI固件,然后关机添加一个内存卡(位置1),内存卡需要保留DIMM1和DIMM8上的2根内存,并拆除其他位置内存。 然后上电开机,查看是否可以开机。当系统可以开机遇到硬件问题会有告警信息打印,后续根据告警信息继续排查即可。

根因
更换主板或I/O板后可能存在.固件版本不匹配或硬件异常导致系统无法开机,系统无法开机则无法对硬件进行自检并告警。 
建议与总结
Tecal RH5485 系统不能开机,首先排查固件版本,版本不匹配会导致系统无法开机。也有可能在故障时有其他部件故障导致不能开机,所以解决问题首先在于让系统开机,以便可以进入系统自检。

固件升级UEFI需要在系统开机的情况下才能升级。在开机后请第一时间进行升级。

RH5485最小化测试略有不同,为单电源、单CPU(位置1 )环境,此环境即可开机。
CPU对应内存卡槽,内存卡内至少要有一对内存,位置DIMM1和DIMM8。 一般内存卡故障率较内存高。需要重点排查。

END