CSE设备RAID卡故障原因导致数据库故障

发布时间:  2014-09-04 浏览次数:  176 下载次数:  0
问题描述
某局点客户反馈ISM监控平台告警,云存储系统CSE数据库主节点服务下线。
告警信息
ISM界面告警:
CSE数据库主节点服务下线。
IPMI管理页面:
CSE数据库主节点无告警信息。
处理过程
1.对故障设备进行重启,重启后可正常进入系统系统收集带内日志信息。
2.通过对带内日志分析,确认是RAID卡在传输数据时,板卡本身发生了MCE错误,RAID卡故障,无法正常工作,导致操作系统只读,数据库无法正常工作。
3.申请备件更换RAID卡进行数据库节点主备同步,问题解决。
根因
1.Ping数据库故障节点,无法Ping通。
2.现场检查设备状态指示灯均正常,通过KVM连接CSE数据库节点设备,发现显示无任何输出。
3.现场收集的设备带外日志和重启后使用一键收集工具收集的带内日志分析。
4.通过对带外日志分析,单板供电和单板温度未发现异常。
建议与总结
根据对RAID卡日志打印的异常信息分析,RAID卡在进行数据传输时,发生了MCE错误,RAID卡故障,无法正常工作,由于系统盘是挂在RAID卡下,因此导致操作系统出现只读。出现MCE错误的RAID卡重启后恢复,但MCE问题通常为硬件故障导致,由于局点设备长期运行,RAID卡硬件老化导致出现MCE错误的可能性很大,因此更换RAID卡。

END