DMP和UltraPath同时存在导致VCS集群频繁上报预留错误

发布时间:  2013-08-30 浏览次数:  163 下载次数:  0
问题描述
存储设备映射给应用服务器的硬盘无法在应用服务器上进行挂载,且VCS集群频繁上报预留错误。


告警信息
处理过程
步骤 1 停止所有应用服务器业务。
步骤 2 在应用服务器上运行umount xxx(xxx代表文件系统挂载点)命令卸载该硬盘上的文件系统。

步骤 3 在应用服务器上运行varyoffvg xxx(xxx代表VG的名称)关闭该硬盘所属的VG。
步骤 4 在应用服务器上运行upadm remove array=xxx(xxx代表设备型号,如S5000)删除存储设备映射的LUN。
步骤 5 参考多路径软件手册卸载UltraPath软件。
步骤 6 在应用服务器上运行cfgmgr命令重新扫描LUN。
步骤 7 重新设置LUN使其能够被DMP管理。
根因
1. 查看应用服务器上报错日志,定位出现问题的硬盘编号为hdisk98以及对应存储设备上的LUN ID为23。(以hdisk98为例)
2. 在阵列上发现该LUN注册的端口有两个分别为Port(35)和Port(44)。
在MML模式下运行命令scsigetregister 23,回显信息如下:
spu ui>scsi getregister 23
Registrant: Nexus(568)  Port(35)  TargetPort(8)
Registrant: Nexus(712)  Port(44)  TargetPort(8)
LUN 23 has 2 registrants

回显信息显示表明LUN ID为23的LUN注册了两个端口。
3. 在MML模式下运行命令tgt port show查看Port(35)和Port(44)的状态。
回显信息如下:
PortId:35    HostId:0  Type:0  Wwn:10000000c992d7cf    Name:Ap3fcs1 
    PortId:44    HostId:1  Type:0  Wwn:10000000c99288f1    Name:Ap7fcs1
4. 分析存储设备日志信息,发现发生预留冲突的端口WWN是10000000c992e2f7。
5. 在应用服务器上查看HBA卡信息,发现没有预留的HBA卡为fcs3。
6. 运行命令lspath-F"path_id:connection:parent:status" -l hdisk98查看hdisk98硬盘的“connection”状态。
回显信息如下:
0:22020022a10245e4,4000000000000:fscsi1:Enabled
1:22120022a10245e4,4000000000000:fscsi1:Enabled
2:22030022a10245e4,4000000000000:fscsi3:Enabled
3:22130022a10245e4,4000000000000:fscsi3:Enabled

7. 分别查看硬盘各个路径的优先级,发现“3:22130022a10245e4,4000000000000:fscsi3:Enabled”路径的优先级为1(1代表最高级别)。I/O将会从该路径进行下发,但是该路径对应的HBA卡的端口WWN:10000000c992e2f7没有被VCS预留,所以系统会上报预留错误。
8. 发现在应用服务器上安装了DMP和UltraPath for AIX。
UltraPath for AIX拦截了所有的物理LUN,生成相应的虚拟LUN后将虚拟LUN提交给DMP,DMP以为只有一条路径并只下发一个预留命令给虚拟LUN。当最高优先级路径故障后迅速恢复,将导致该路径不会被预留。
由此得出结论:
 DMP和UltraPath for AIX的同时存在导致VCS集群频繁上报预留错误。
建议与总结
DMP和UltraPath for AIX同时存在于VCS下是有风险的,如果上层应用必须要使用DMP,可以考虑将UltraPath for AIX卸载。

END