OceanStor S5500T同步远程复制业务中断故障分析

发布时间:  2015-10-15 浏览次数:  126 下载次数:  0
问题描述

虚拟机业务中断,ESX上无法识别到S5500T映射的LUN,存储上查看LUN状态正常,同步远程关系正常。

处理过程

1.    现场业务异常的LUN都是配置了同步远程复制的主LUN,共有5个。

2.    分析主端存储日志,发现有大量的ABTS(Abort Task,见摘要部分),表示此时有大量的IO发生了重试。


3.    重试的原因是由于IO超时,从日志看出,大量的IO都达到了90秒超时上限,从而产生Abort Task管理命令,发生超时的模块是bs_ini,即增值的链路管理,说明主端、从端远程复制IO异常。


4.  分析从端的存储日志,A控日志中同样观察到了大量的ABTS,现象和主端现象一致,都是IO收发出现异常,该情况一般是由于链路上出现异常。

5.  分析链路连接相关日志,确认链路在持续发生大量的重协商,但未发生链路断连,表示FC链路已经处于较差状态。

6.   查看交换机日志,发现交换机侧端口检测到了大量误码,确定交换机到从端存储链路存在异常。该情况最终导致主机业务中断。



根因

交换机到从端存储链路存在异常,没有导致主从LUN之间分裂,致使业务数据无法下发。

解决方案

交换机到从端存储链路存在异常,由于同步远程复制必须先写从端后写主端,远程复制链路异常最终导致主机业务异常。需要更换对应异常链路两端连接,即:交换机口光模块、存储光模块、光纤线。更换两端光模块后,收集日志,依旧有大量误码,更换光纤线后故障恢复,交换机侧查看无大量误码。

END