本站点使用Cookies,继续浏览表示您同意我们使用Cookies。Cookies和隐私政策>
发布时间: 2020-08-21 | 浏览次数: 390 | 下载次数: 0 | 作者: lWX829869 | 文档编号: EKB1100054097
1、 工程完毕后发现系统特别的卡,用户重启了服务器。导致服务器出现B06的告警,系统连接不上。从而导致工程验收没法继续操作。
2、 到达现场后登录到IBMC上查看到的告警信息是:如下图所示
3、没有出现其他告警。
1、 遇到这样的问题首先联系了TAC,收集了日志信息并发RAID卡备件进行更换;
2、 怀疑是有可能是主板问题,也申请了主板备件进行更换;
3、 更换完RAID卡后,重启设备发现问题解决了。可是过了1个小时后服务器又报之前的告警;
4、 更换完主板后,重启设备,登录到IBMC上没有任何的告警信息出现,但是连接键盘显示器后发现是黑屏现象;
5、 而且在IBMC上查看不到RAID卡信息,内存信息,CPU信息等基础信息;如下图所示
6、 在IBMC上修改了登录方式后可以在显示器上看到自检的过程;
7、 但是点击DEL键后等待时间会长时间卡在下图的界面上;
8、 等段时间后又回到了黑屏的现象;
9、 联系TAC,申请了2个CPU经行了更换,更换过后还是和之前的现象一致;
10、 收集了服务器信息后,经过排查未发现硬件问题,最小化测试总结出:
(1)单CPU:单内存测试,结果和之前故障一样;
(2)硬盘背板测试:经过测试确定了3块硬盘背板中又1块有问题;
(3)测试初步判断有问题的硬盘背板,将所有的硬盘全部拔出,一块一块的插入经行测试;经过4个小时的测试,确定有一块硬盘有问题。当把这块硬盘拔出后,所有的设备全部连接好,显示器上可以看到自检正常进行,操作系统也能正常登录;
由于服务器中一块硬盘故障导致服务器异常,且硬盘故障告警未在BMC中体现。
1.确定是硬盘问题后,立即联系TAC申请备件。
2.更换完对应槽位的硬盘后,所有的设备全部连接好,显示器上可以看到自检正常进行,操作系统也能正常登录;
3.观察一段时间后未出现之前的情况,服务器运行正常,操作系统能正常登录,说明问题解决。
1、遇到这样的问题,一定要有耐性,在更换主板,raid卡等固件时要仔细,不要拔错或线缆连接错误;
2、再细心的做硬盘拔插测试来排查故障原因,不要嫌麻烦时间长。
3、更换完之后需要等待业务恢复无异常后才能离场。