N8500渲染文件时性能问题案例分析

发布时间:  2015-09-01 浏览次数:  166 下载次数:  2
问题描述
故障现象
使用Maya软件进行视频文件渲染操作时,在其它的windows客户端上打开该文件系统的网盘目录,会卡顿一段时间才能够显示网盘中的目录及文件,其它的文件系统业务未受影响。 

处理过程
问题修复过程
1. 在现场减少渲染客户端的数量时,客户端打开网盘目录的现象有所改善。
2. 在现场环境使用新建的文件系统进行渲染测试,同时使用windows客户端打开网盘发现卡顿现象依然存在。
3. 查看网络流量信息,发现渲染任务执行时引擎节点的心跳流量较大。同时确认现场配置文件状态正常。
4. 在现场将渲染任务迁移至单个引擎节点上时,打开网盘目录卡顿现象消失。随后使用较大的素材文件进行渲染时也并未出现卡顿问题,问题解决
根因
渲染业务的业务模型决定了不同的客户端会对相同的文件进行频繁的读写操作。为保证数据一致性,引擎节点会对文件执行加锁、解锁等操作,因此当不同的渲染客户端访问不同的引擎节点时,引擎节点之间会进行大量的交互以确保锁信息及文件元数据信息的一致性。
而在客户端上打开网盘目录时,会调用大量的select函数获取目录信息,而select函数执行时需要等待文件锁及元数据信息,因此耗费较多时间,导致卡顿现象出现。
而当渲染任务运行在单个节点上时,加锁解锁操作全部都在该节点上完成,无需跟其他节点进行交互,减少了大量的交互时间,同时也降低了系统负载。因此卡顿现象解决。
解决方案
1. 根据现场收集的四个节点的历史流量来看,将其余业务运行至其余三个节点上,系统能够正常负载。同时现场也验证了渲染任务运行在单个节点上的负载情况。事实证明,通过该方式系统完全能够正常处理上层业务。
因此建议使用单节点运行渲染业务。
2. 将渲染任务切换至单个节点
1) 停止渲染业务,并卸载分发服务器和渲染服务器的CIFS网盘。
2) 将分发服务器和所有渲染服务器访问NAS网盘的方式由DNS域名改为IP方式。
3) 在分发服务器和渲染服务器上重新挂载网盘,并保存用户名和密码。
4) 建议在DNS域名中去除渲染服务器挂载的业务IP地址,保证该引擎节点仅提供渲染业务。其他业务使用其余三个节点。

END