某客户vis问题处理

发布时间:  2015-11-26 浏览次数:  124 下载次数:  3
问题描述
某客户VIS6600T在2015/09/24 15:35,华为研发接到TAC反馈局点VIS6600T逻辑盘异常,一个卷状态故障导致主机部分业务中断,通过远程指导修复逻辑盘和卷状态后,主机业务恢复正常。
处理过程
1. 2015/09/24 13:35:华为研发接到TAC反馈,某客户VIS6600T逻辑盘异常,一个卷状态故障导致主机侧部分业务中断。
2. 2015/09/24 16:20:由于客户局点涉密敏感,无法搭建远程,后通过远程指导一线恢复逻辑盘和卷状态后,成功恢复上层主机业务。

 

根因

1. 从VIS侧的告警文件来看,在9月10日18:04分,VIS两个节点到HP阵列端口(wwn:50001fe1500bc6c9)有FC链路断开和IO超时的告警。

2. 根据VIS的IO超时策略,如果非镜像卷有磁盘路径IO超时超过90秒,VIS会进行相应的错误处理,即离线对应逻辑盘,进行故障隔离。由于逻辑盘对应的卷没有创建镜像,因此卷状态异常,进而卷上的业务中断。
3. VIS告警显示HP阵列映射给VIS的逻辑盘eva4k6k0_17故障,对应的卷eva01状态异常。

从返回的告警和日志确认,由于HP阵列的FC端口误码,导致下发到HP阵列上的IO出现严重的超时(超时时间超过90S),因此VIS根据IO超时处理机制,离线逻辑盘,由于逻辑盘对应的卷没有创建镜像,导致卷状态异常,上层业务中断。

 

 

解决方案
1. 暂时禁用IP为172.16.4.152交换机4号端口
目前已明确该端口存在光功率低,链路质量不稳的问题,而该链路目前还在被使用,如果有IO通过该路径下发,还会有IO超时和逻辑盘离线的风险,如果目前无法对故障链路的光纤和光模块进行替换,可以在确认该链路有冗余的情况下,暂时禁用该端口或者将光纤的一端拔出,使得上层业务不使用这条链路。
2. 解决IP为172.16.4.152交换机4号端口的误码
通过3.1.2节的分析,该误码产生的原因是交换机端口的接收光功率过低,一般是因为光纤线或者光模块老化导致。可以通过以下方式进行排查处理:
a) 先更换光纤线,确保更换前后连接端口一致,更换后在交换机上使用sfpshow 4检查该端口的接收光功率是否恢复正常,如果未恢复,则执行下一步。
b) 更换HP阵列端的光模块,更换后再次检查光功率是否正常,如果未恢复则执行下一步。
c) 更换交换机4号端口的光模块,更换后再次检查光功率是否正常。
d) 如果以上步骤完成后均无法消除误码,则需要提交交换机日志给交换机厂商,排查交换机硬件问题。

END