FusionCompute 添加数据存储卡死

发布时间:  2015-05-04 浏览次数:  286 下载次数:  0
问题描述

用户存储组网为FCSAN,在扫描16T存储设备后,为主机添加数据存储时,任务执行了四天卡死在90%,为其他主机添加该数据存储任务也同样卡死。存储设备之前通过IPSAN方式接入的FC,后面将更改为FCSAN,存储设备没有进行相应的更改。任务卡死截图如下:




告警信息

处理过程

1、  在主机上面执行ll /dev/disk/by-id,根据存储设备的名称找到对应的盘符,确认设备和数据存储没问题;

2、  登陆VRM数据库,查看tbl_task表查看处理中的任务的id

3、  VRM节点上找到任务开始时间的vrm备份日志(VRM备份日志路径为/var/backuplog/galaxenginelog/具体的日期),在相应时间点vrm.log日志中搜索TaskId:xxxx相关的日志(其中xxxx为数据库中查询到的任务id

4、  TaskId:xxxx找到的相关日志中找到ncip(即下发任务给主机的ip

5、  登陆上一步ip的主机,打开主机的日志nc.log(备份日志的路径为:/var/log/主机名/日期/小时),在日志中查找是否有AddDataStore关键字,查询添加数据存储的消息是否下发成功。

6、  执行命令dd if=/dev/sdg of=/dev/null bs=1w  查看是否读速度比较稳定,如果连续几次读取速度不稳定,请排查存储链路的问题。如果读取不到数据表明任务已经卡死,需要执行步骤7

7、  执行命令upadmin show vlun 找到添加数据存储所对应的存储设备,并找到该设备的id

8、执行如下命令upadmin show vlun id=    (其中x为第七步查询到的存储设备的Vlun ID)

9、  可以看到该存储设备对应四条多路径,分别将这四条多路径的信息删除,执行如下命令:

echo 1 >/sys/class/scsi_device/9\:0\:0\:1/device/delete

echo 1 >/sys/class/scsi_device/12\:0\:0\:1/device/delete

echo 1 >/sys/class/scsi_device/11\:0\:0\:1/device/delete

echo 1 >/sys/class/scsi_device/13\:0\:0\:1/device/delete

其中红色部分为第8步查询到的多路径。

10、执行upadmin show vlun id=x  查看多路径表示已经删除成功

11、在主机中执行lsscsi命令

12、找到第1步所查询到的盘符对应的多路径id编号,然后执行如下命令:

echo 1 >/sys/class/scsi_device/x\:x\:x\:x/device/delete

执行上面这些步骤是让FusionCompute中的任务失败。

13、在存储池->存储设备中再点击“扫描”

14、对相应的主机添加数据存储,选择格式化该存储设备。

再次添加数据存储的任务成功。

根因

客户之前使用的是iscsi协议的存储,后来在主机上添加HBA卡,修改为FC组网的存储,主机中残留有iscsi的多路径信息,导致下发任务超时。

建议与总结

对于更换后端存储协议,最好咨询相关专业人员。

END