发布时间: 2019-07-10 | 浏览次数: 135 | 下载次数: 0 | 作者: anjie0813 | 文档编号: EKB1100021597
故障描述 |
XXX数据中心18500 V3控制器上报内部修复告警 |
局点名称 |
XXX数据中心 |
产品型号 |
OceanStor 18500 V3 |
软件版本 |
V300R003C20SPH208 |
业务模式 |
数据库 |
18500 V3 设备控制器出现内部错误自修复告警,15秒后恢复正常。
1、2019年01月22日 10:50:38时,0B控制器NT0发生UR(Unsupported Request)错误,控制器接收到UR错误后进行自修复(PCIE端口重置);
2019-01-22 10:50:38][22410604.614401] [][15000009003dd][ERR][AER Report: Serverity:0 Err Type:Unsupported Request ,Err Cnt:1,Device is[10b5:87b0](8e:00.00)][PCIE_AER][PCIEAER_AerPrintErrorHelper,405][ErrThread_80:2.] 2019-01-22 10:50:38][22410604.614901] [][1500000920765][INFO][Notify xnet nt(8e:0.0) link down, lane: 0xffff.][PCIE_CORE][PCIECORE_NotifyXnetLinkStatus,845][ErrThread_80:2.] 2019-01-22 10:50:38][22410604.615192] [][150000092047c][INFO][Notify xnet nt(8e:0.0) link down finished.][PCIE_CORE][PCIECORE_NotifyXnetLinkStatus,891][ErrThread_80:2.] |
注:UR错误为在NT链路断开时,检测到有数据包正下发到该链路,会上报Unsupported Request错误。
2、系统检测到NT0自修复,上报发生自修复(0x100F00CF003D)告警;
2019-01-22 10:50:39 0x100F00CF003D Fault Warning Recovered 2019-01-22 10:50:54 An exception of controller (0){0:controller enclosure; 1:disk enclosure; 2: engine}CTE0, controller B) is being processed. The controller and the interface module connected to it cannot carry services temporarily. |
3、分析0A、0B控制器PCIE芯片日志,0B控制器PCIE芯片存在误码,0A控制器PCIE芯片未见明显误码;怀疑0B控制器PCIE芯片存在异常导致NT0中断,触发链路自修复。
[ERR][AER Report:
Serverity:2 Err Type:Header Log Overflow Status,Err Cnt:1,Device
is[10b5:87b0](8e:00.00)][PCIE_AER][PCIEAER_AerPrintErrorHelper,405][ErrThread_80:2.] |
4、自修复完成后,NT0链路恢复正常,系统运行正常。
[INFO][Notify xnet nt(8e:0.0) link up, lane: 0xffff.][PCIE_CORE][PCIECORE_NotifyXnetLinkStatus,845][PCIE_NTTHREAD_0] [INFO][Notify xnet nt(8e:0.0) link up finished.][PCIE_CORE][PCIECORE_NotifyXnetLinkStatus,891][PCIE_NTTHREAD_0] [INFO][Handle node 0 NT 0 xnet logic up finish.][PCIE_CORE][PCIECORE_XnetNotifyLogicLinkup,5572][XCMThread] |
总结:
1、 NT0产生Unsupported Request报错,触发NT自修复,系统检测到自修复行为上报告警;
2、 NT0链路中断且发现0B控制器PCIE芯片存在误码打印,怀疑为0B控制器PCIE芯片存在短暂异常导致;
3、 控制器间NT存在两条链路,目前发生自修复NT在NT0,设备运行不受影响。
0B控制器PCIE镜像芯片端口存在误码异常,导致NT0链路中断,产生UR报错,触发系统自修复行为;系统检测到自修复行为后上报告警。
更换0B控制器,返回0B控制器进行芯片异常分析。