18000远程复制反复断开恢复案例

发布时间:  2015-11-28 浏览次数:  326 下载次数:  0
问题描述

1、阵列上反复出现如下告警并恢复:“The remote replication (ID xxx) is interrupted abnormally, with the primary LUN (ID xx), secondary LUN (ID xx), and remote array (name Huawei.Storage, serial number xxx).”

2、观察远程复制可以看到状态一直是“异常断开”和“同步中”/“正常”之间转换。

告警信息

The remote replication (ID xxx) is interrupted abnormally, with the primary LUN (ID xx), secondary LUN (ID xx), and remote array (name Huawei.Storage, serial number xxx).

处理过程
1.首先观察主、从端的告警,是否有“存储池剩余容量不足”/“存储池容量即将耗尽”相关的告警;
2.观察主从端是否有“主机端口误码过高”相关的告警;
3.再通过日志来确认,观察主、从端的日志,有如下日志确认是pool空间不足:
[INFO][Notify Rss Disable Snap success,originLunId(0), isRollBacking(0).][VOL] [notifyRssDisableSnap,620] //(存储池空间不足时通知增值处理的打印)
[ERR][Volume destage return err: result(2147485440) vol(0x0) ckg(0x0) lba(0x5c2200) len(512).][CACHE][volCacheDestageReqDone,739] //(存储池空间不足时cache写保护的打印)
4.日志中有如下打印则说明链路上丢帧/误码过多:
主端日志:
[2015-05-02 13:34:02][3690592453][00005000040e0833][WARN][TSDK:port(0x110201): Abort send abts: lNPort(0x12e00) ====>>> rNPort(0xb2f00) xchg (0xffffc9001c9f6510),oxrx_id(0x807ffff) fiXchgAbortSendAbts : 306.][FC_TGT] [tsdkTracer,1334]//(本端端口0x110201)
[2015-05-02 13:34:02](3690592453)<----ABTS(0x0):0x810b2f00 0x00012e00 0x00210000 0x00000000 0x0807ffff 0x00000000 //(发送超时信息,IO号为0x0807)
[2015-05-02 13:34:02](3690592453)---->BLS_RJT:0x85012e00 0x000b2f00 0x00980000 0x00000000 0x0807100d 0x00000000 0x00030300//(远端返回未找到)
从端日志:
[2015-05-02 13:31:52][3646353329][00005000040e3eee] [WARN][Port(0x110101) IOstat(0x2),InfoLen(0x0),Xchg(0xffffc9001aa4c2b8),TgtCmd(0xffff880184250ec8),OX_ID(0x807), State(0x13).][FC_TGT][PF_TgtProcessFailIo,2720] //(本端端口0x110101)
[2015-05-02 13:33:28](3646377326)---->ABTS:0x810b2f00 0x00012e00 0x00290000 0x00000000 0x0807ffff 0x00000000 //(收到超时信息,IO号为0x0807)
[2015-05-02 13:33:28](3646377326)<----BLS_RJT(0x0):0x85012e00 0x000b2f00 0x00980000 0x00000000 0x0807100d 0x00000000 0x00030300//(返回远端未找到)
5.如果是链路上丢帧/误码过多,继续步骤6、7、8进一步分析。
6.是否通过交换机连接,确认是否开启流控;
7.未开启流控,继续结合告警和日志中的阵列端口号,排查交换机到从端阵列是否有误码,方法如下:
 参考DeviceManager主界面由上角的“?”图标的联机帮助,“首页”>“管理硬件设备”>“监控控制器”>“管理FC接口模块”的操作提示,清除所有FC端口误码统计。如下图所示

系统运行一段时间(如1小时)后,重新查看端口的“线路误码统计”增长情况。若误码增长速度较快,可通过尝试更换该端口对应的线缆、光模块单元、接口卡来排查故障点。
8.上一步仍未恢复,继续排查主端阵列到交换机之间、交换机与交换机之间的链路误码情况:
排查交换机上的误码增长情况。以博科和SNS系列交换机进行说明,登录交换机的CLI命令行,通过CLI命令statsclear和porterrshow清除和查看当前误码情况。

运行一段时间(如1小时)后重新使用CLI命令porterrshow查看端口统计情况。若enc in和enc out增长速度较快,可通过尝试更换该端口对应的线缆、光模块单元、接口卡来排查故障点。

根因

可能原因:

1、主端或从端的存储池pool空间不足

2、阵列间的链路有误码,IO超时导致

3、阵列间通过交换机连接,交换机开启流控导致

以上三种情况都可能导致远程复制的断开,由于远程复制会自动尝试修复,由于上述情况依然存在,远程复制会再次断开,表现现象就是反复断开恢复。

解决方案

一、对于存储池pool空间不足的情况:

1、对pool进行扩容,扩容后远程复制自动恢复。

二、对于交换机进行流控的情况:

1、取消交换机流控,远程复制自动恢复。

2、如果不取消交换机流控时,需要减小阵列间复制速度。可以通过两种方式实现,a将远程复制的速率调低一档;b将阵列间链路的带宽限制到交换机流量限制之下。

三、链路上有误码的情况:

1、按照定位方法中的排查步骤7、8依次更换光纤线、光模块、接口卡来解决。

建议与总结

【恢复后检查】


观察远程复制是否再有断开现象,没有则故障已恢复。收集存储日志,分析日志中是否仍然有“ABTS”打印;如果仍有,请联系华为工程师处理。

【附录】


对于远程复制的一致性组反复断开恢复的情况,分析过程与远程复制一致。

【适用范围】


OceanStor 18000、TV2、V3全系列产品。

END