本站点使用Cookies,继续浏览表示您同意我们使用Cookies。Cookies和隐私政策>
发布时间: 2020-08-29 | 浏览次数: 1394 | 下载次数: 1 | 作者: gWX745069 | 文档编号: EKB1100054439
5885H V5 服务器CPU1和CPU3报QPI/UPI link failed,设备间断性自动重启
1.收集日志发现CPU1和CPU3报QPI/UPI link failed错误,设备系统日志记录每隔半小时系统重启一次;
2.首先考虑更换CPU1和CPU3,更换CPU后BMC告警消失,设备暂时也恢复正常,没有再继续重启;
3.第二天设备又发生自动重启,分析日志后,考虑更换设备主板与扩展扣板,并申请一颗CPU作为备用备件。更换主板后设备运行正常,大概运行10分钟后,BMC重新出现告警,CPU2与CPU4报QPI/UPI link failed错误,问题没有得到解决;
4.再次将CPU2与CPU4调换位置测试告警没有消失,更换CPU4(之前的CPU2)更换后问题依旧存在没有得到解决;
5.决定对主板进行最小化测试,当把所有内存(16根)拔下来后,核对所有内存的容量和速率,发现其中有一根内存的BOM编码与其他内存不同,把这条内存单独拿出来再进行最小化测试;
6.测试后,基本可以排除4颗CPU不存在问题,主板也是新换的,那么很有可能就是那条内存导致设备频繁发生重启;
7.使用一条BOM编码与其他内存一致的内存更换上去,更换后BMC没有发现告警,设备运行一天后再收集日志查看告警,系统没有出现自动重启现象,日志中也没有任何告警信息打印;
9.继续观察设备运行情况,运行三天后设备运行正常,可以确认是由内存导致的设备自动重启,最后故障解决;
1.当设备中出现CPU报QPI/UPI link错误时,基本可以判断是设备主板故障,但是带主板到达客户现场后,建议不直接更换主板,先对主板做最小化测试,无论怎么测试还报QPI/UPI link错误时,就可以更换主板了,
1.导致设备自动重启有很多种可能出现的问题,内存故障一般就是导致设备发生重启的直接原因,所以具体问题还要具体分析,有时候BMC出现的告警并不能真正判定就是告警中显示的硬件有问题,当更换告警部件后问题没有得到解决的,建议现场先做最小化排查,定位出具体的故障部件;
3.更换主板时一定要注意各种线缆连接接口位置与连接方式以及每根线缆具体功能,不能使用蛮力随意拉扯,更换后要再三确认接口是否已经接好接实,切记设备加电后要将设备SN信息映射到新的主板上,保障设备正常运行以及后续维护设备工作的延续性;