所选语种没有对应资源,请选择:

本站点使用Cookies,继续浏览表示您同意我们使用Cookies。Cookies和隐私政策>

提示

尊敬的用户,您的IE浏览器版本过低,为获取更好的浏览体验,请升级您的IE浏览器。

升级
案例库

G2500 GPU卡未识别

发布时间:  2018-10-16  |   浏览次数:  89  |   下载次数:  0  |   作者:  gWX586002  |   文档编号: EKB1001924087

目录

问题描述

G2500 一张GPU卡未识别

 

处理过程

收集日志查看

BMC日志分析

查看BMCSEL日志,未发现存在异常报错。

查看FDM日志,未发现服务器存在硬件故障。

查看机器板卡信息,发现八张GPU卡均在位。


查看sensor info,cpu、内存等均在位且传感器读数正常。



查看OS日志:现场同事确定兼容性以及驱动等兼容性层面无问题。查看kern.log,未发现存在报错。

 

查看dmesg日志,未发现相关报错,打印信息均为启动过程正常打印。


查看faillog,未发现记录有效信息。


查看GPU-manager log,发现存在一颗GPU的报错。根据报错ID分析,确定此报错GPU为未识别到的GPU



交叉测试:
建议现场同事对GPU卡进行交叉测试,OS下未识别GPU卡出现在固定槽位而非跟着卡走。确定问题出在GPU板上。




 

根因



通过上述日志分析和现场测试,GPU识别不全的原因在于GPU背板的故障,与驱动等无关,其他硬件部件状态健康。



解决方案

更换GPU背板