FusionInsight HD V1R2C30LCN001硬盘故障更换后无法识别分区

发布时间:  2016-09-08 浏览次数:  180 下载次数:  0
问题描述

FusionInsight HD集群版本: V1R2C30LCN001

集群规模:158节点(6管理控制)

硬件型号:Dell R720,硬盘规格900GB SAS硬盘,转速10K

问题现象:数据节点硬盘故障,但FusionInsight HD网页端未收到硬件故障告警信息。

告警信息
巡检过程中在服务器硬件上发现硬盘故障红灯。
处理过程

操作步骤

1.       Manager上停掉该节点上所有实例

2.       /var/log/messages内可以看到如下告警信息,

Jul 17 00:46:34 xxxxxxxxxxxxxx kernel: [8384801.159283] EXT4-fs (sdl1): warning: mounting fs with errors, running e2fsck is recommended

Jul 17 00:50:00 xxxxxxxxxxxxxx kernel: [8385006.016500] sd 6:0:6:0: [sdl] Sense Key : Medium Error [current]

Jul 17 00:50:00 xxxxxxxxxxxxxx kernel: [8385006.016508] sd 6:0:6:0: [sdl] Add. Sense: Unrecovered read error

Jul 17 00:50:00 xxxxxxxxxxxxxx kernel: [8385006.016524] Buffer I/O error on device sdk1, logical block 1415594116

Jul 17 00:50:00 xxxxxxxxxxxxxx kernel: [8385006.095561] Buffer I/O error on device sdk1, logical block 1415594117

执行命令blkid /dev/sdk可以查看到对应的硬盘UUID


3.       根据第2步骤识别到的硬盘UUID,手动修改/etc/fstab文件,注释掉需更换磁盘信息行

执行命令: vim /etc/fstab样例如下:

4.       执行命令halt关机

5.       到机房更换故障的磁盘

6.       启动机器,根据服务器厂商或raid卡厂商提供的操作指导raid0

7.       Raid0完成后启动OS

8.       手动格式化磁盘,使用PuTTY工具以root用户登录硬盘故障的服务器,执行mkfs.ext4 /dev/sdx命令格式化磁盘

9.       执行blkid命令查询磁盘UUID信息,然后vim编辑/etc/fstab文件,使用uuid模式建立磁盘和目录的映射关系,样例如下:

10.   执行mount –a完成挂载,并通过df –h确认

11.   manager上启动该节点上的所有实例

12.   确认该节点所有实例正常

END