FusionAccess发放虚拟机失败,提示“与FusionCompute通信异常”问题

发布时间:  2015-12-22 浏览次数:  350 下载次数:  0
问题描述

FusionAccess页面选择发放虚拟机时,给磁盘选择数据存储时失败,提示语FusionCompute通信异常,导致不能正常创建虚拟机

处理过程

(1)    FusionAccess发放业务时,会有向FusionCompute进行信息查询操作

(2)    而此时VRM由于主机配置存储多,从VRM日志可以看出,查询的时候耗时比较长,一次查询100个虚拟机需耗时1分钟,导致上层消息超时,报出与FusionCompute通信异常错误信息

 

 

 

(3)        导致查询周期过长的原因是由于主机的datastore数量多,从数据库查询虚拟机卷信息耗时长,查询三个卷耗时0.6S左右,所以100个虚拟机一次查询下来基本耗时1分钟左右

查看数据库更新操作一次需要0.4S

正常环境下,每一个数据库操作耗时在0.01S左右

4)重启VRM后,所有访问数据库操作被终止,所有资源被释放,所以再操作访问数据库就会很快返回,业务发放业务恢复正常。但是这个只是个临时的解决办法,在运行一段时间后,数据库访问压力一上升,可能还会再出现访问超时现象,要想从根本解决这个问题,需要按照下面处理措施中选择适合项目目前状况的解决办法

       以下是VRM部署数据流同步方式

主备(同步)


根因

FusionAccess页面选择发放虚拟机时,给磁盘选择数据存储时失败,直接原因是30秒查询超时。

查询操作是VRM处理的,在数据存储较多场景下,VRM频繁更新数据库引起磁盘读写瓶颈,造成数据库操作慢,从而导致VRM线程执行时间拉长,最终导致查询任务耗时过长,上层认为业务超时,通信异常,导致创建虚拟机任务失败

解决方案

规避措施 

出现FA上发放虚拟机失败,或者查询非常慢的时候,登录VRM执行下面命令重启VRM服务可释放压力。

注意执行命令前确认FusionCompute上无正在运行的任务。

Service vrmd restart

 

 

 有以下几种解决方案提供参考。

1 增加VRM虚拟机的IO,根据产品资料,目前VRM的本地磁盘配置规格建议为4+1组成的Raid5R5版本也对数据存储的刷新进行了优化,优化后的推荐配置如上,建议不少于该磁盘能力)。

如果服务器本地磁盘无法增加硬盘,建议在SAN存储上为VRM单独划分划分LUN,将VRM迁移到共享存储上提高IO

 

2 升级到最新FusionCompute R5C00SPC301或者FusionCompute R5C10SPC700版本

——最新版本操作数据库的频率会降低到之前的32%

END