RH1288V3服务器2TSSD硬盘I/O缓冲区报错

发布时间:  2016-06-06 浏览次数:  256 下载次数:  0
问题描述

设备安装Linux系统,启动时产生大量Buffer I/O error on device报错

告警信息

1、硬件无告警信息

2、系统故障信息:Feb 2 18:31:06 mmastronewyearmqstoreb17 kernel: nvme 0000:84:00.0: Cancelling I/O 0 Feb 2 18:31:06 mmastronewyearmqstoreb17 kernel: Buffer I/O error on device nvme3n1, logical block 439453104 Feb 2 18:31:11 mmastronewyearmqstoreb17 kernel: nvme 0000:84:00.0: Cancelling I/O 1 Feb 2 18:31:11 mmastronewyearmqstoreb17 kernel: Buffer I/O error on device nvme3n1, logical block 439453104 Feb 2 18:31:16 mmastronewyearmqstoreb17 kernel: nvme 0000:84:00.0: Cancelling I/O 2 Feb 2 18:31:16 mmastronewyearmqstoreb17 kernel: Buffer I/O error on device nvme3n1p1, logical block 439452848 ,

处理过程

1、登录BMC查看告警信息,未查看到相关告警;

2、搜集系统日志,确认硬盘故障告警,盘符为:nvme3n1,总线号为0000:84:00.0的硬盘存在问题;

3、据总线号初步估计为最后一块硬盘故障。将最后一块硬盘拔出,远程登录服务器并挂载Toolkit工具,键入lspci命令查看能否识别到总线号0000:84:00.0的设备。未识别到,确认该盘故障,更换新的硬盘。

4、重启设备,检测设备运行正常。

建议与总结

灵活使用Toolkit工具对故障硬件进行定位和分析

END