OceanStor 5800 V3 LUN在使用过程中,存储上报The link between the initiator and the host port disconnected告警

发布时间:  2015-12-15 浏览次数:  216 下载次数:  1
问题描述

客户在5800 V3存储上重新规划业务,多次创建或删除了多个LUN,在使用过程中存储上报WarningThe link between the initiator of the host and the host port disconnected. 但存储与主机物理链路未出现任何异常。

告警信息

告警信息如下,

处理过程

WarningThe link between the initiator of the host and the host port disconnected”意味着主机启动器和存储主机端口断开了逻辑链接。主机与存储是通过FC Channel建立的连接,逻辑链路一旦出现问题,存储前端FC驱动会感知到存储端口逻辑链路断链。存储系统日志伴随着会产生下面类似的异常打印:

在系统日志中没有发现以上异常打印,说明存储没有感知到主机与存储端口间逻辑链路出现异常。同时排查主机与存储间的物理链路,也没有发现任何问题。

主机安装了华为多路径UltraPath,检查多路径日志:

多路径确实有检测到路径异常的打印。

检查Warning时间点的存储事件记录,可以发现在存储上报Warning前有用户删除和添加LUN映射的操作:

根因

由于UltraPath多路径无法区分删除LUN映射与逻辑链路断开两种场景,故在删除LUN映射后多路径日志记录链路断开。在重新添加LUN映射的时候,UltraPath10s为一个周期去检测是否有有逻辑链路恢复,一旦有链路恢复就通过已恢复的链路把未恢复链路的断开告警发送到存储端,也就是我们见到的Warning:“The link between the initiator of the host and the host port disconnected”

解决方案
目前UltraPath还暂时无法区分删除LUN映射与逻辑链路断开两种场景。在充分理解故障告警的意义和触发因素后,要检查故障附近时间点是否还有其他异常或操作,把之间的关系进行梳理。 若告警是客户频繁删除LUN映射导致的,可以提醒并向客户做出解释,表明该告警对业务没有影响;若告警是逻辑链路断开导致,则需要排查物理链路是否正常,确认链路是否真的存在断链,及时排查隐患。
建议与总结

这类问题是存储软件告警不清楚,不能有效指导问题发生的原因。存储链路物理断链的告警能比较直观的反应链路出现问题,而在识别逻辑链路告警时,需要了解该告警都是由UltraPath多路径推送给存储,而UltraPath还暂时无法区分删除LUN映射与逻辑链路断开两种场景。在充分理解故障告警的意义和触发因素后,要检查故障附近时间点是否还有其他异常或操作,把之间的关系进行梳理,这有助于我们找寻真实的故障原因,排查出潜在的隐患。

END