VIS承载的Oracle业务因HBA卡兼容性问题导致主机time out报错案例

发布时间:  2016-01-21 浏览次数:  1145 下载次数:  8
问题描述

现场组网环境如下:

现场VIS版本如下:

SNS2124交换机版本如下:

现象描述:

使用dmesg命令查看时,有关于HBA的报错信息。

报错是:

Report-1:0-4blocked FC remote port time outremoving rport

Report-2:0-4blocked FC remote port time outremoving rport

告警信息

存储、VIS和光纤交换机无告警,主机告警信息如下:


处理过程

1.  查询服务器兼容性要求,尝试更换服务器操作系统所兼容的Linux系统;

查询多路径版本是否配套,现场安装的版本为:UltraPath V100R008C20,兼容性要求:UltraPath V100R008C00及以后版本;

2.  确定HBA卡型号,从HBA官网获取对应的驱动,尝试安装;

3.  更换所有设备的光纤线,并检查光口是否异常

4.  收集VIS相关的兼容性需求交由研发分析,使用ToolKit巡检工具巡检并收集日志交由研发分析

5.  使用switchshow查看光纤交换机的端口状态;

使用portcfgshow查看fillword是否正确,03为正常

使用supportshow收集日志交由研发分析

6.使用Toolkit对存储进行巡检,查看端口模式及是否存在误码。

根因

从告警信息看,报错是由FC通道相关引起的。可能原因有:

主机层:操作系统的兼容性、HBA卡驱动、HBA本身的兼容性及多路径版本兼容性等

网络层:VIS兼容性、VIS的光纤端口是否故障

SNS2124光纤交换机填充字是否正确、是否存在误码、导出supportshow查看

存储层:存储本身硬件问题、存储光口是否存在误码

链路层:光纤线是否有损坏,端口模式,速率是否匹配等。


根因:

HBA兼容性问题,更换匹配的的HBA卡恢复报错。

建议与总结

1.  遇到问题,首先排除硬件故障和链路问题再排查配置问题

2.  使用巡检工具,便于确定和定位问题故障

3.  解决问题,可尝试简洁组网方式排查,比如:多路径组网可以修改为直连组网。

END