发布时间: 2018-08-11 | 浏览次数: 1327 | 下载次数: 10 | 作者: pWX465805 | 文档编号: EKB1001790509
某数据存储与所有主机关联异常,且其中多个主机上报“与VRM心跳异常”
排查上报“主机与VRM心跳异常”的主机,发现对应时间点,主机负载超高,load average达到1000以上
大量进程D状态卡住,包括平台的业务管理服务vnad,导致主机的心跳状态无法上报,30秒后,上层VRM即认为主机故障,上报“主机与VRM心跳异常”的告警,虚拟机HA。
查看D状态进程的堆栈,几乎都是卡在“ocfs2_wait_for_recovery”步骤。该步骤需要访问存储,并与其他主机通信。因此怀疑是主机之间网络问题,或主机访问存储故障
进一步分析存储状态。通过查看message日志发现,主机在访问scsi id为scsi-360060e8012297b005040297b00000501的LUN时频繁报IO超时
使用iostat命令查看该LUN的IO情况,发现该LUN上的IO得不到处理,在没有IO的情况下,磁盘利用率基本维持在100%
使用dd命令直接读取,发现IO非常慢,甚至完全卡住
由于多个主机访问同一个LUN都有相似问题,所以怀疑是该LUN存在故障。联系存储工程师排查存储故障,是否LUN有坏盘等。如有,进行更换
解决存储硬盘等故障