所选语种没有对应资源,请选择:

本站点使用Cookies,继续浏览表示您同意我们使用Cookies。Cookies和隐私政策>

提示

尊敬的用户,您的IE浏览器版本过低,为获取更好的浏览体验,请升级您的IE浏览器。

升级
案例库

FusionCompute存储IO卡住导致主机故障、数据存储异常

发布时间:  2018-08-11  |   浏览次数:  968  |   下载次数:  10  |   作者:  pWX465805  |   文档编号: EKB1001790509

目录

问题描述



某数据存储与所有主机关联异常,且其中多个主机上报“与VRM心跳异常”



处理过程

排查上报“主机与VRM心跳异常”的主机,发现对应时间点,主机负载超高,load average达到1000以上




  
大量进程D状态卡住,包括平台的业务管理服务vnad,导致主机的心跳状态无法上报,30秒后,上层VRM即认为主机故障,上报“主机与VRM心跳异常”的告警,虚拟机HA



查看D状态进程的堆栈,几乎都是卡在“ocfs2_wait_for_recovery”步骤。该步骤需要访问存储,并与其他主机通信。因此怀疑是主机之间网络问题,或主机访问存储故障





进一步分析存储状态。通过查看message日志发现,主机在访问scsi idscsi-360060e8012297b005040297b00000501LUN时频繁报IO超时



使用iostat命令查看该LUNIO情况,发现该LUN上的IO得不到处理,在没有IO的情况下,磁盘利用率基本维持在100%




 
使用dd命令直接读取,发现IO非常慢,甚至完全卡住






由于多个主机访问同一个LUN都有相似问题,所以怀疑是该LUN存在故障。联系存储工程师排查存储故障,是否LUN有坏盘等。如有,进行更换





 


 

解决方案



解决存储硬盘等故障