如何处理华为存储建立的session过多导致主机关联存储资源失败的问题

发布时间:  2016-03-14 浏览次数:  516 下载次数:  0
问题描述
【适用版本】 FusionCompute V100R003/V100R005C00各版本

1、主机关联存储资源失败。

2、主机关联的存储链路中断告警
告警信息
告警ID:15.1005001,主机关联的存储链路中断告警。

处理过程
找到当前关联该存储的所有主机,确认是否有某些主机可以不使用该存储,如果有则将这些主机与存储的会话断开,以释放存储的session资源。
根因
1、集群中存在主机存储链路中断告警,部分主机关联存储资源无法成功。

2、主机存储链路中断,通常的原因是主机到存储IP不可达,因此首先从主机上检查存储IP是否可达。从告警附加信息中找到链路中断的IP,登录告警主机,使用ping命令检测这些存储IP是否可达,检查结果确认这些存储IP均网络可达,因此排除网络不通的可能。

3、在主机上执行iscsiadm –m session获取已登录的session信息,在列出的session列表中,找到包含告警附加信息中的存储IP的session。

4、执行iscsiadm –m node –p IP –u登出告警链路对应的会话。

5、执行iscsiadm –m node –p IP –l重新登录该IP。

6、重新登录该IP后,该IP链路中断的告警依然没有恢复。

7、在主机上执行登录链路中断的IP的操作,同时使用tcpdmp抓取数据包分析



8、从抓取的数据包可以看到,登录操作成功后,主机收到了RST请求重置连接,因此怀疑是存储侧在登录成功后主动断开了链接。

9、分析存储日志,存储日志中显示当前可用session已经耗尽,并会主动断开新创建的链接。在某些低版本的存储中,支持的session个数存在限制(1024),当关联该存储的主机太多,session个数达到上限时,将会出现该问题,无法再继续建立session。

END