服务器虚拟化产品fusioncomputer(V100R003C10SPC600)的管理网口由于交换机上行链路出现网络堵塞导致虚拟机出现HA操作

发布时间:  2015-02-06 浏览次数:  578 下载次数:  1
问题描述


XX局点组网环境如下,fusioncomputer计算节点管理网络和业务网络采用主备模式,客户近期部署了NBU备份服务器备份挂接在接入层交换机SW3及SW4下的数据库服务器。

XX时间期间发生40台左右虚拟机发生HA,并有7台主机频发上报“主机与VRM心跳异常”告警,2台主机重启。

 


告警信息
告警有虚拟机发生HA提示,并有7台主机频发上报“主机与VRM心跳异常”告警,2台服务器重启
处理过程

1、从收集的5CNA节点nc.log日志发现打印了很多CNA上报心跳到VRM异常的记录:

节点X.X.9.19

4、分析5CNA节点的messages.log日志,发现每个CNA10261145之间网络不停的闪断,每次网络中断时长在20秒以上。以CNA18节点为例:

……

5Fence机制是隔离计算机集群中的节点或者当一个节点出现故障(malfunctioning)时保护共享资源的一个过程。随着集群中节点数量的增加,其中一些节点在某些点失效的概率也随之增加。这些失效节点可能控制着一些需要回收的共享资源;如果这些节点表现不稳定,那么需要保护系统中其他的部分。Fence可能禁用这些节点,也可能禁止共享存储访问,从而确保数据的完整性。

根因

该期间客户NBU服务器发起来的对挂接在交换机SW3下的服务器的备份,备份方式为LABbase,备份产生的数据流量将SW3的上行链路全部堵塞。由于客户9CAN节点挂接在SW3上,由于链路堵塞导致VRM没有办法与其他CAN节点的管理网络通讯(VRM所在的CAN部署在SW4),导致该部分CAN节点上的虚拟机触发HA操作。

解决方案

处理方案

             方案一 : 部署单独的两台交换机接入该fusioncomputer集群节点的管理网络,两台交换机之间级联增强可靠性,不接入其他业务。

             方案二: 将数据库服务器备份业务迁移到一台单独以太网交换机,避免备份流量堵塞fusioncomputer的心跳网络

建议与总结

END