虚拟机块设备故障
虚拟机块设备故障,会导致业务数据无法正常保存,造成数据丢失。
现象描述
登录存储系统CLI界面,通过show alarm可查询到“Block Device Is Faulty”的告警信息。
可能原因
常见的原因包括:
- LUN故障。
- 故障块设备对应的LUN从映射视图中移除。
- 故障块设备对应的LUN所在的LUN组从映射视图中移除。
- 故障块设备对应的启动器从所在的主机中移除。
- 故障块设备对应的主机从所在的主机组中移除。
- 故障块设备对应的主机组从映射视图中移除。
处理步骤
- 原因1:LUN故障。
- 登录存储系统CLI界面。
- 执行show lun general命令查看LUN的“Health Status”是否为“Normal”。
- 是 => •原因2:故障块设备对应的LUN从映射视图中移除...。
- 否 => 保持故障环境并联系技术支持工程师进行处理。
- 原因2:故障块设备对应的LUN从映射视图中移除。
- 登录存储系统CLI界面。
- 执行show lun_group lun命令检查该LUN是否在对应的映射视图中,执行参数lun_group_id指定LUN组ID。
- 是 => •原因3:故障块设备对应的LUN所在的LUN组从...。
- 否 => 3。
- 执行add lun_group lun命令将LUN添加到对应的映射视图中,执行参数lun_group_id指定LUN组ID。
如果移除LUN后重启了控制器,则重新添加LUN后,需要重启控制器。
- 操作结束后,检查故障是否解决。
- 是 => 处理完毕。
- 否 => 保持故障环境并联系技术支持工程师进行处理。
- 原因3:故障块设备对应的LUN所在的LUN组从映射视图中移除。
- 登录存储系统CLI界面。
- 执行show mapping_view lun_group命令检查该LUN组是否在对应的映射视图中,执行参数mapping_view_id指定映射视图ID。
- 是 => •原因4:故障块设备对应的启动器从所在的主机中移...。
- 否 => 3。
- 执行add mapping_view lun_group命令将LUN组添加到对应的映射视图中,执行参数mapping_view_id指定映射视图,执行参数lun_group_id指定LUN组ID。
如果移除LUN组后重启了控制器,则重新添加LUN组后,需要重启控制器。
- 操作结束后,检查故障是否解决。
- 是 => 处理完毕。
- 否 => 保持故障环境并联系技术支持工程师进行处理。
- 原因4:故障块设备对应的启动器从所在的主机中移除。
- 登录存储系统CLI界面。
- 执行show vhost_initiator general命令检查该启动器是否在对应的主机中。
- 是 => •原因5:故障块设备对应的主机从所在的主机组中移...。
- 否 => 3。
- 执行add host vhost_initiator命令将启动器添加到对应的主机中,执行参数host_id指定主机,执行参数wwn指定启动器。
如果移除启动器后重启了控制器,则重新添加启动器后,需要重启控制器。
- 操作结束后,检查故障是否解决。
- 是 => 处理完毕。
- 否 => 保持故障环境并联系技术支持工程师进行处理。
- 原因5:故障块设备对应的主机从所在的主机组中移除。
- 登录存储系统CLI界面。
- 执行show host_group host命令检查该主机是否在对应的主机组中,执行参数host_group_id指定主机组ID。
- 是 => •原因6:故障块设备对应的主机组从映射视图中移除...。
- 否 => 3。
- 执行add host_group host命令将主机添加到对应的主机组中,执行参数host_group_id指定主机组,执行参数host_id_list指定主机。
如果移除主机后重启了控制器,则重新添加主机后,需要重启控制器。
- 操作结束后,检查故障是否解决。
- 是 => 处理完毕。
- 否 => 保持故障环境并联系技术支持工程师进行处理。
- 原因6:故障块设备对应的主机组从映射视图中移除。
- 登录存储系统CLI界面。
- 执行show mapping_view host_group命令检查该主机组是否在对应的映射视图中,执行参数mapping_view_id指定映射视图ID。
- 是 => 保持故障环境并联系技术支持工程师进行处理。
- 否 => 3。
- 执行add mapping_view host_group命令将主机组添加到对应的映射视图中,执行参数mapping_view_id指定映射视图,执行参数host_group_id指定主机组。
如果移除主机组后重启了控制器,则重新添加主机组后,需要重启控制器。
- 操作结束后,检查故障是否解决。
- 是 => 处理完毕。
- 否 => 保持故障环境并联系技术支持工程师进行处理。