所选语种没有对应资源,请选择:

本站点使用Cookies,继续浏览表示您同意我们使用Cookies。Cookies和隐私政策>

提示

尊敬的用户,您的IE浏览器版本过低,为获取更好的浏览体验,请升级您的IE浏览器。

升级
案例库

OceanStor 18500 V3控制器自修复告警

发布时间:  2019-07-10  |   浏览次数:  28  |   下载次数:  0  |   作者:  anjie0813  |   文档编号: EKB1100021597

目录

问题描述

故障描述

XXX数据中心18500 V3控制器上报内部修复告警

局点名称

XXX数据中心

产品型号

OceanStor 18500 V3

软件版本

V300R003C20SPH208

业务模式

数据库


告警信息

18500 V3 设备控制器出现内部错误自修复告警,15秒后恢复正常。



处理过程

120190122 10:50:38时,0B控制器NT0发生URUnsupported Request错误,控制器接收到UR错误后进行自修复(PCIE端口重置

2019-01-22 10:50:38][22410604.614401] [][15000009003dd][ERR][AER Report: Serverity:0 Err Type:Unsupported Request ,Err Cnt:1,Device is[10b5:87b0](8e:00.00)][PCIE_AER][PCIEAER_AerPrintErrorHelper,405][ErrThread_80:2.]

2019-01-22 10:50:38][22410604.614901] [][1500000920765][INFO][Notify xnet nt(8e:0.0) link down,  lane: 0xffff.][PCIE_CORE][PCIECORE_NotifyXnetLinkStatus,845][ErrThread_80:2.]

2019-01-22 10:50:38][22410604.615192] [][150000092047c][INFO][Notify xnet nt(8e:0.0) link down finished.][PCIE_CORE][PCIECORE_NotifyXnetLinkStatus,891][ErrThread_80:2.]

注:UR错误为在NT链路断开时,检测到有数据包正下发到该链路,会上报Unsupported Request错误。

2、系统检测到NT0自修复,上报发生自修复(0x100F00CF003D)告警;

2019-01-22 10:50:39    0x100F00CF003D    Fault    Warning    Recovered    2019-01-22 10:50:54    An exception of controller (0){0:controller enclosure; 1:disk enclosure; 2: engine}CTE0, controller B) is being processed. The controller and the interface module connected to it cannot carry services temporarily.

3、分析0A0B控制器PCIE芯片日志,0B控制器PCIE芯片存在误码,0A控制器PCIE芯片未见明显误码;怀疑0B控制器PCIE芯片存在异常导致NT0中断,触发链路自修复。

[ERR][AER Report: Serverity:2 Err Type:Header Log Overflow Status,Err Cnt:1,Device is[10b5:87b0](8e:00.00)][PCIE_AER][PCIEAER_AerPrintErrorHelper,405][ErrThread_80:2.]
[ERR][AER Report: Serverity:2 Err Type:Advisory Non-Fatal ,Err Cnt:1,Device is[10b5:87b0](8e:00.00)][PCIE_AER][PCIEAER_AerPrintErrorHelper,405][ErrThread_80:2.]
[ERR][AER Report: Serverity:2 Err Type:Header Log Overflow Status,Err Cnt:2,Device is[10b5:87b0](8e:00.00)][PCIE_AER][PCIEAER_AerPrintErrorHelper,405][ErrThread_80:2.]
[ERR][AER Report: Serverity:2 Err Type:Header Log Overflow Status,Err Cnt:3,Device is[10b5:87b0](8e:00.00)][PCIE_AER][PCIEAER_AerPrintErrorHelper,405][ErrThread_80:2.]

4、自修复完成后,NT0链路恢复正常,系统运行正常。

[INFO][Notify xnet nt(8e:0.0) link up, lane: 0xffff.][PCIE_CORE][PCIECORE_NotifyXnetLinkStatus,845][PCIE_NTTHREAD_0]

[INFO][Notify xnet nt(8e:0.0) link up finished.][PCIE_CORE][PCIECORE_NotifyXnetLinkStatus,891][PCIE_NTTHREAD_0]

[INFO][Handle node 0 NT 0 xnet logic up finish.][PCIE_CORE][PCIECORE_XnetNotifyLogicLinkup,5572][XCMThread]

总结:

1、  NT0产生Unsupported Request报错,触发NT自修复,系统检测到自修复行为上报告警;

2、  NT0链路中断且发现0B控制器PCIE芯片存在误码打印,怀疑为0B控制器PCIE芯片存在短暂异常导致;

3、  控制器间NT存在两条链路,目前发生自修复NTNT0,设备运行不受影响。



根因

0B控制器PCIE镜像芯片端口存在误码异常,导致NT0链路中断,产生UR报错,触发系统自修复行为;系统检测到自修复行为后上报告警。


解决方案

更换0B控制器,返回0B控制器进行芯片异常分析。