5600 V3存储在重启后上报控制器故障

发布时间:  2015-08-21 浏览次数:  154 下载次数:  0
问题描述

北方某局一台5600 V3存储,在设备重启之后A控制器告警,提示故障.设备外观上A控告警亮红灯,日志告警信息如下图所示:


处理过程

从告警日志上看,错误码0x4000cf0d表示内部链路有没有协商到满带宽。 继续分析日志,发现此时控制器AA5槽位接口卡带宽协商到了X2,实际应该为X8,带宽下降了4倍导致上报故障告警 :


设备上电时,控制器会先与接口卡进行速率与带宽协商,此局点版本为SpcVersion=V300R001C10B012,为最早发布的版本,此版本中,未加入重协商机制,控制器与接口卡只协商一次,如果这次未协商到X8就应该故障上报告警,实际上在硬件没有故障的情况下也不一定一次就能成功协商到X8,可能需要重试2-3次,如果只协商一次,可能在设备重启或者接口卡上下电时上报控制器故障概率较高

 

根因
由于早期版本没有加入重协商机制,导致设备重启时,控制器与接口卡一次协商未成功上报控制器故障告警。
解决方案

临时解决方案:重新下上电接口卡或者重启控制器触发重新协商1次解决

最终解决方案: 升级到OceanStor 5600V3 V300R001C20版本解决

建议与总结

控制器与接口卡带宽由X8协商到了X2,带宽下降4倍,如果客户业务压力较小,没有影响,如果客户业务压力较大,则可能影响性能。

在条件允许的情况下进行控制器软件版本升级。

END