FusionCompute V100R003C10SPC603+6001和FusionStorage V100R003C02SPC303云平台环境下,批量导入虚拟机概率性出现导入十分缓慢的问题定位

发布时间:  2015-09-30 浏览次数:  190 下载次数:  0
问题描述

云平台环境下,FC的版为V100R003C10SPC603+6001,FusionStorage的版本为V100R003C02SPC303,虚拟机的镜像通过nas共享方式获取,通过公司局同一平台批量导入虚拟机,在同一批导入的虚拟机中,随机性概率出现几台虚拟机导入十分缓慢。假设统一批次导入的虚拟机为40台,有39台虚拟机在10分钟内导入成功,最后一台虚拟机需要4~5个小时才导入成功。

告警信息
虚拟机导入十分缓慢,观察存放镜像的nas,带宽足够,一直在等待数据的读写。
处理过程

1、 分别联系fusionstorageOceanStor 9000研发定位问题,系统未见任何异常。9000最大带宽达到1T/s,当导入异常的虚拟机在导入的过程中,9000的带宽仅有100kb/s左右。

2、 登陆该站点的主vrm,查找到“导入虚拟机”执行过程中时间点日志,根据虚拟机的ID号,查找虚拟机获取存储资源的所在的存储CNA。则下图中的10.183.136.180即为该CNA。登陆该CNA,查看网口流量,发现活动网口eth0的流量十分缓慢,执行 ifconfig eth0 down ,活动网口切换到eth1(eth0和eth1采取网口绑定的方式),此时流量迅速上升,发现Oceanstor 9000流量迅速上升,FC中任务中心的导入虚拟机任务在几分钟中内完成。通过此步骤,判定该节点网口存在异常。

3、重新新建批量导入虚拟机的任务,发现出现上述现象的所在节点均在同一个机柜,即同一台接入交换机,因此基本判断是接入交换机的问题。登陆故障交换机及正常交换机对比,配置完全一致。查看交换机的上行口光衰,即dis int transceiver verbose,发现“故障交换机”的上行口的40GE1/0/2的光衰超出了阈值,但端口并未被down掉。由于接入交换机的两个上行口是通过流量的负载均衡方式,因此出现了导入虚拟机十分缓慢的情况。


4、对“故障接入交换机”的光衰大的上行线重新插拔,重新查看光衰,在正常的阈值范围内。插拔后,导入虚拟机迅速完成。

5、重新批量导入虚拟机,未出现导入缓慢的现象。故障问题解决。

 

 

 


 

根因
接入交换机光衰超出阈值。
解决方案
定位具体哪台“故障交换机”,并重新插拔或更换光纤线。
建议与总结
当出现异常故障现象,一步一步深入,逐步缩小定位范围,最终实现问题解决。

END