RH2488 V2服务器安装麒麟3.0系统死机

发布时间:  2014-09-20 浏览次数:  325 下载次数:  0
问题描述
硬件配置: RH2488 V2服务器。
软件配置:Kylin 3.0
一台服务器在启动过程中会频繁宕机(显示器黑屏,键盘无响应,业务网口无法访问),其他部分机器在运行过程中概率出现如上类似宕机问题。
告警信息
处理过程
排查步骤如下:
1) 找一台能进入系统的机器,查看系统版本信息如下图所示:

2) 系统在空闲状态下也会发生宕机,排除应用程序引发因素。现场挑两台服务器分别部署RHEL5.7和RHEL5.8系统,测试一天,安装RHEL5.7和RHEL5.8系统的服务器未发生宕机,而安装麒麟3.0系统的服务器宕机。初步确认操作系统是引发宕机的因素之一。
3) 另一方面,对安装麒麟3.0服务器修改BIOS设置(P/C/T选项)进行验证,同样也未发现异常,说明BIOS设置(P/C/T选项)对宕机有一定影响。
4) 用RHEL5.7的内核替换麒麟3.0的内核进行测试,发现不出现宕机现象,说明是麒麟3.0的内核问题导致宕机。升级麒麟3.0的内核后,可以根本解决此宕机问题。
根因
麒麟3.0操作系统内核较旧,对RH2488服务器中Intel处理器特性支持不好导致宕机,服务器硬件并无故障。
建议与总结
此类问题可以从OS兼容性方面入手:
麒麟3.0操作系统内核较旧,对RH2488服务器中Intel处理器特性支持不好导致宕机,服务器硬件并无故障。
解决方案
方案一:
1、 重启RH2488,在post 阶段按下 DEL 进入BIOS,
2、 进入Advanced 菜单,选择Processor and Clock options选项,
3、 将Intel(R) SpeedStep(tm)tech 设置为“Disable”,
4、 将Intel(R) C-STATE tech 设置为“Disable”,
5、 将 ACPI T State 设置为“Disable”,
设置以后的结果如下图:

6、 保存退出 BIOS
上述方案为硬件上的紧急规避方案,现场采用该方案后服务器运行两周死机现象暂时未出现。

方案二:
向麒麟公司寻求技术支持,升级麒麟3.0系统的新编译的内核,增添对于Westmere EX系统的兼容性支持。此方案为本问题根本解决办法。

END