CNA分布式文件系统异常问题

发布时间:  2017-02-12 浏览次数:  97 下载次数:  1
问题描述

CNA05上虚拟机正常但无法正常迁移,且同一集群上另一台CNA17上有一台虚拟机异常。

OneAPM 监控平台、FusionCompute V5.1、华为RH2485 V2。

告警信息

FusionCompute中发现有CNA05主机与VRM心跳异常。


处理过程

1、  2017/1/5 14:01 检查CNA05告警信息,确认CNA05上的虚拟机正常。检查发现CNA05管理网络(管理存储网络合一部署的)正常 、CNA系统正常。

 

2、  2017/1/5 14:10 CNA05上虚拟机正常运行,为了安全起见,计划在下班后将CNA05上的虚拟机迁走,然后重启CNA05

 

3、  2017/1/5 15:40 发现CNA17上有一台虚拟机故障,VNC控制台也无法登陆,强制关闭失败。此时怀疑是因为CNA05的问题导致CNA17上的这台虚拟机故障,迁走CNA05上的虚拟机,然后CNA05关机解决了CNA17虚拟机的问题。

 

  4、2017/1/5 16:10 迁走CNA05的虚拟机并进入维护模式后,CNA问题全部解决。

根因

    因CNA之间使用了共享文件系统,某一台CNA异常时有可能会影响到其他的CNA,OneAPM发生故障,持续占用内存不释放,且进程数一直再增加。最终耗尽CNA05 Domain0系统资源,导致CNA05出现告警,影响到了CNA17上的虚拟机

解决方案

迁走CNA05上的虚拟机,然后CNA05关机解决了CNA17虚拟机的问题迁走CNA05的虚拟机并进入维护模式后,CNA问题全部解决。

建议与总结

1、  尽可能使用较为安全的方式来监控系统,如使用SNMP

2、  管理与存储网络平面往往比业务网络平面更重要,管理与存储网络异常可能会导致虚拟机HACNA主机异常等。需要引起足够重视并且保障管理与存储网络平面的冗余性。

3、  FusionCompute一个集群所有的CNA使用的文件系统存在相关性。需注意一台CNA文件系统异常可能引发整个CNA集群的问题。

END