FusionCube亚健康问题定位以及处理方式

发布时间:  2015-03-05 浏览次数:  233 下载次数:  0
问题描述
某局点采用FusionManager V100R003C10SPC600 + FusionStorage V100R003C02SPC200部署计算云,其硬件平台为RH2288H V2。云平台部署过程中无任何报错。部署完毕后,一线服务人员尝试创建测试虚拟机,发现其创建时间非常长,并且无法迁移、关闭、删除该虚拟机,虚拟机的cpu占用率也极高。整个云平台处于不稳定状态。
告警信息
FM界面上提示“网络包错包率/重传率超过阈值”告警,如下图所示:

处理过程
遇到云平台亚健康状态时,请首先检查各个节点的存储平面接口带宽速率,具体检测方法举例如下:

1. root用户下,在云平台每个节点UVP系统中部署iperf网络流量检测工具,具体安装方法请参考ipef官网介绍;

2. root用户下,在node1~nodeN-1节点上分别执行iperf -s -p 11900,开启iperf服务端;

3. root用户下,在nodeN节点依次执行iperf -c 192.168.50.xx -t 30 -i 2 -p 11900,其中192.168.50.xx是node1~nodeN节点的存储平面ip,观察各节点之间的存储平面传输速率。

4. 测试发现其中一个节点存储平面传输速率过低后,进一步排查服务器存储平面网络接口、物理链路以及对端交换机物理接口的硬件问题。本案例中,一线服务人员发现对端交换机光模块存在硬件问题。
根因
对端交换机光模块硬件问题导致FusionSphere+FusionStorage其中一个节点存储平面网络通信速率过低,数据传输受阻。
建议与总结
在FusionSphere+FusionStorage场景中,若出现亚健康状态,即云平台出现无法迁移、关闭、删除虚拟机,虚拟机的cpu占用率过高,创建虚拟机时间非常长等问题,请首先检查各节点之间存储平面的传输速率,再进一步定位相关硬件问题。

END