RH5885服务器CAT ERROR&节能模式关闭案例

发布时间:  2015-03-20 浏览次数:  3396 下载次数:  0
问题描述

硬件配置: RH5885H V3或者RH5885 V3服务器。

现象1. 服务器运行一段时间后,操作系统宕机,显示器输出无显(no signal)。

现象2. BMC上报CAT ERROR,如图1所示。并且无其他硬件告警。

1

现象3. 收集操作系统日志,没有产生MCE日志或者MCE日志中没有硬件报错信息。Message日志中没有错误打印。

告警信息
         服务器BMC报CAT ERROR或者服务器出现OS死机
处理过程

1            服务器CAT ERROR告警原理分析

1.1.1 CAT ERRORX86计算系统检测机制所能识别到的故障统称

IntelPentium 4XenonP6系列处理器中实现了机器检查(Machinecheck)架构,提供能够检测和报告错误的机制,如系统总线错误、校验错 误、缓存错误、TLB错误、进程溢出和越界等。

当机器检查到不可纠正的进程错误时,就触发记录一个CAT ERROR日志。也就是说CAT ERROR是进程在CPU和内存中执行过程中遇到。    

X86平台中导致CAT ERROR的原因主要包括CPU、内存相关硬件故障以及异常逻辑状态等软件故障。

1.1.3 华为服务器针对此类复杂的异常事件,具有故障诊断功能,可以快速提供该类疑难问题的判断依据

当前X86平台技术中对于CAT ERROR问题定位较为困难,为此华为服务器在BMC管理系统中开发了故障诊断功能。实现了计算资源的轨迹追踪,可以在发生CAT ERROR事件时根据轨迹追踪信息从硬件的角度进行自动判断,并给出处理建议。

因此对于此类问题的分析主要采用BMC故障诊断日志和OS中的MCElog日志进行对应分析的方法。如问题原因为硬件导致,那么在两个日志中均会有硬件异常产生,否则问题的方向需要从OS层面进行深入分析。

根因

1.  初步结论:无有效日志,无法确认CAT ERROR具体原因。根据现有日志分析,初步排除硬件故障,现象疑似OS进程偶发异常导致。

2.  RH5885 V3采用新一代CPUE7-48xx V2系列),OS对新一代硬件平台CPU的高级节能特性支持可能存在不稳定性。

根据之前平台处理经验,出现过OSCPU节能模式不兼容导致系统概率性出现异常的情况。VMwareCitrix官方都明确建议关闭CPU的节能模式。

VMware

VMware官网文档中在电源管理方便建议关闭节能模式,链接如下:

http://www.vmware.com/files/pdf/techpaper/VMW-Tuning-Latency-Sensitive-Workloads.pdf

因各厂家服务器BIOS参数名称和BIOS路径有差异,如下截图中是HPDELL服务器的参数说明。

Citrix

Citrix系统也有节能模式引起的问题:

官网说明链接如下:

http://support.citrix.com/article/CTX127395

处理方案也是将节能模式关闭,因各厂家服务器BIOS参数名称名称和BIOS路径有差异,如下截图中是HPDELL服务器的参数说明。

解决方案
      若遇到此类服务器故障现象,可以手动收集服务器BMC日志和操作系统OS的message日志返回研发分析确认是是否属于节能模式问题,确认属于该问 题,可以进入BIOS中手东关闭CPU节能模式能够解决该问题。

END