RH2288 V3服务器GPU显卡供电不足导致Raid卡温度过高失效

发布时间:  2017-04-25 浏览次数:  458 下载次数:  3
问题描述

RH2288 V3在加压测试过程中服务器重启,三块硬盘全部亮黄灯,BMC告警三块硬盘故障,5分钟后,硬盘恢复绿灯闪烁,raid无法配置,BMC显示无可控制的raid控制器。

告警信息

硬盘故障告警

处理过程

1、  刚启动时BMC告警信息显示是硬盘故障,5分钟后BMC告警消失,告警灯熄灭,raid卡无法配置。更换raid卡后故障依然重现。
2、  收集操作系统日志及BMC日志,分析结果是raid卡温度过高。
3、  拆开服务器检查raid卡散热片正常,拆除GPU显卡,上电,服务器恢复正常。
4、  兼容性助手查到该K80  GPU显卡需要在riser取两路电,该局点只取了一路电,重新安装电源线缆上电服务器。
5、  进入raid卡,PD Mgmt 显示硬盘全部是Failed状态,手动Make unconfigured good,再进入到VD Mgmt,import之前的配置信息,raid恢复。


根因
GPU显卡只接一路电源
解决方案

更改GPU显卡双路取电后,raid卡温度正常,服务器恢复正常。

建议与总结

遇到问题多做分析测试,一点点排除导致故障的原因。

END