服务器RH2485出现cat error报错

发布时间:  2016-02-17 浏览次数:  1075 下载次数:  3
问题描述

服务器出现报错:每次服务器操作系统正常重启时会出现CPU1CPU2同时产生CAT error detected in the x86 OS,此时重启不成功,服务器无法正常开机

告警信息

CAT error detected in the x86 OS

处理过程
1.查看服务器报警灯状态,发现在操作系统正常运行时硬件状态灯无任何异常,通过BMC管理网口登录BMC管理界面(BMC默认地址192.168.2.100rootHuawei12#¥),查看历史报警信息发现每次服务器操作系统正常重启时CPU1CPU2同时产生CAT error detected in the x86 OS,操作系统无法正常启动(bios无法进入)此时与用户沟通并确认该服务器上没有业务可以重启测试,服务器重启测试5次,每次服务器操作系统重启时会出现CPU1CPU2同时产生CAT error detected in the x86 OS,此时拨打400电话寻求帮助。
2.400工程师建议收集BMC信息,分析日志寻找故障原因,具体BMC信息收集步骤如下:
ssh登录到服务器,上传本地脚本bmc_collect_v2.1.5.shBMC Linux OS任意目录(bmc_collect_v2.1.5.sh为目前使用的脚本,后期可能会改变,需要使用时可向400索要)。 更改脚本权限执行chmod 775 bmc_collect_v2.1.5.shv2.1.5表示版本号,需要替换成当前实际使用的版本号) 执行./bmc_collect_v2.1.5.sh收集信息,脚本运行完成后会在当前目录生成一份“Linuxlog_厂商_设备型号_设备序列号_年月日时分秒.tar.gz”文件(日志包)。
3.使用工具或者命令将生成的日志保存到本地,发给研发 400工程师建议更换主板做一下尝试(RH2485更换主板比较复杂,耗费时间比较长,),更换主板后服务器重启测试故障依然 拨打400工程师电话说明当前更换主板后的故障现像,此时400工程师建议单颗CPU单颗内存运行测试(后经研发确认RH2485在单颗CPU单颗内存时是无法启动的),拨打400电话说明故障现象。
4.收集sol信息:首先进服务器BIOS ,开启Debug模式,ssh登录到服务器,然后执行ipmcset -d download -v 0命令,会生成一个日志包,同时会显示该日志包的存放位置 使用工具或者命令将生成的日志保存到本地,发给研发 ,研发分析sol日志后建议将服务器两个HBA卡移除后测试,依照研发建议测试后故障消除,次时再进行单个HBA卡测试,通过测试发现1号槽位的HBA卡故障,更换新的HBA卡测试运行(重启操作系统10遍以上报错不再产生),故障消除
根因

此次故障根因为服务器HBA卡故障

解决方案

遇到cat error报错需要现场工程师首先收集BMCSOL信息反馈给研发,通过分析日志定位故障部件

建议与总结
服务器问题故障处理建议以下步骤:
1.查看设备外观告警灯状态。
2.收集BMCSOL信息反馈研发分析。
3.严格根据研发建议操作。

END