5600 V3 SmartIO端口反复断开恢复

发布时间:  2015-11-28 浏览次数:  375 下载次数:  0
问题描述

正常运行中,存储smartIO端口多次出现断开,大概10s后恢复。

告警信息

告警确认端口断开告警,大概10秒后自动恢复

2015-07-17 02:45:24 DST    0xF0060004    Major    2015-07-17 02:45:36 DST    The FC host port (Controller Enclosure CTE0, -- controller B, port number H1) is disconnected.

2015-07-17 02:45:22 DST    0xF0060004    Major    2015-07-17 02:45:42 DST    The FC host port (Controller Enclosure CTE0, -- controller B, port number H0) is disconnected.

处理过程

1、有PCIE检测到IOC芯片错误并报错的打印,在对应控制器的message日志中搜索关键字“code0 = 0x201019, code1 = 0x10”,有类似下图的打印:

图二 


2、同时有SmartIO卡驱动软件复位FC芯片的日志,在对应控制器的message日志中搜索关键字“CHIP RECOVER”,有类似下图的打印:

图三


根因

问题触发的主要流程如下图所示:


A流程是由芯片软件缺陷引起,此过程触发了一个中断响应,Smart IO接口卡驱动程序收到此中断后会主动读取FC芯片状态寄存器。

注:FC芯片主要用于FC协议数据解码、传输等。

B流程是芯片内部的例测过程,定时读取芯片状态寄存器,以实时监控接口卡硬件状态是否异常。

芯片中的“状态寄存器”有一个设计约束,要求对其的连续访问间隔不得小于20ns,如果小于该值,则会导致这2次访问的结果是非法值。上述的A流程和B流程是相互独立执行的,二者的访问有可能撞到一起,违背上述的20ns的最小访问时间间隔,从而使得二者的访问结果是非法值。

B流程例测到状态寄存器值非法后,Smart IO卡驱动认为芯片存在故障可能会影响数据传输,就启动了错误修复机制(流程C),复位接口卡FC芯片,进行修复动作,从而造成设备端口出现断开又恢复。


解决方案

确认是该问题后,打热补丁V300R002C10SPH102解决。

建议与总结


END