​RH2288A 服务器运行Windows 2008R2系统时报Cat error并出现重启后黑屏故障

发布时间:  2016-02-15 浏览次数:  611 下载次数:  0
问题描述
RH2288A服务器运行Windows 2008 R2系统过程中BMC报CAT error并在启动时黑屏,无法进入系统,手动重启后正常进入系统,运行一段时间后重启系统问题再现。
告警信息

出现错误时显示器黑屏,无法正常进入操作系统,此时服务器健康指示灯为红色闪烁状态,进入BMC管理口可见如下错误信息:

Machine check exception detected in the x86 OS

CAT error detected in the x86 OS

RH2288A V2出现CAT error时BMC管理口告警信息

处理过程
  1. 对服务器进行巡检后搜集系统日志供研发分析,得到的反馈为未发现异常的硬件告警。
  2. 查看BIOS及iBMC软件版本,分别为BIOS版本V508,iBMC版本1.51,与研发接口人沟通后将BIOS版本升级为V512,iBMC版本升级为1.62,升级后故障依然存在。
  3. 与研发接口人沟通后利用infocollect工具搜集了BMC和操作系统的日志供研发进一步分析,仍然无法找出原因,根据得到的信息更换了可能存在潜在问题的RAID卡,更换后问题依旧。
  4. 根据搜索到的类似案例尝试修改BIOS设置,例如调整节能参数及PCIE参数等,由于BIOS版本较新而没有相应配置,且可修改的配置均对问题现象没有明显改善,将所有配置还原等待研发进一步分析。
  5. 根据问题现象分析黑屏故障出现在windows进度条出现前的时间点,此时服务器启动过程已经进入操作系统级别,因此初步判断存在于操作系统中,利用Service CD自带的Linux系统启动多次未发现故障,因此判断故障存在于此服务器运行的Windows 2008 R2系统中,且问题可能由系统级别或驱动级别的软件引发,问题处理过程中发现用户自行安装了360个人版杀毒软件及个人版防火墙,怀疑360可能导致相关问题。
  6. 经与研发沟通后确定重新申请一台服务器的相关备件组装成一台服务器,由研发组装测试并安装操作系统后发到客户处进行对比测试,将硬盘互换后判断问题根源。
  7. 新服务器安装系统后到达现场,与现场故障服务器的硬盘对调后,确认只有在启动故障服务器硬盘中的系统时才会出现CAT error故障,而新装的操作系统无论在哪个服务器上都未出现此故障。由于已经发现客户自行在服务器的操作系统中安装了360个人版杀毒软件及个人版防火墙,且程序已经针对服务器进行了原本设计用于家用的自动系统优化,根据各种现象初步判断应该为360软件导致了本次问题。
  8. 经过以上过程的测试及与客户的沟通,最终确认故障存在与Windows 2008 R2操作系统中,且可能与360个人版软件有极大相关性,协助客户重装操作系统后告知客户不要安装个人版360软件,故障消失。
根因

根据与研发合作进行的问题处理过程分析,此故障可能为360个人版软件针对服务器进行了优化导致了一些驱动级别的冲突,导致操作系统在启动过程中出现错误,进而引发了CAT error告警并造成启动失败。且由于故障可能为360软件的优化操作导致,因此从理论上分析即使卸载了360软件,相关问题仍然存在,仍然可能继续出现CAT error告警并启动失败。

经与研发沟通,上述分析得到了一些相关实践操作的验证。之后在本地区另一局点的两台RH5885 V3服务器上再次出现了客户自行安装个人版360软件的状况,且均出现启动后黑屏和CAT error告警,将上述分析告知客户后协助客户重装了Windows 2008 R2操作系统,故障消失。由此确认360个人版杀毒软件及个人版防火墙的自动优化功能确实可能引发CAT error问题。

解决方案
  1. 协助用户根据华为操作流程正确进行操作系统的重新安装。
  2. 告知客户360个人版软件可能出现的兼容性风险,告知客户不要在服务器上采用个人版杀毒软件。
建议与总结

遇到类似问题避免仅从硬件是否损坏的角度考虑,应根据具体现象细致观察,综合分析,综合考虑软硬件可能存在的问题,并利用技术手段排查并尽快解决问题。

END