RH5885搭载FusionInsight导致服务器异常重启问题

发布时间:  2015-12-29 浏览次数:  90 下载次数:  0
问题描述
某客户局点使用RH5885 V3服务器,部署FusionInsight大数据软件,在使用过程中发现有几台服务器异常重启,并且这几台服务器属于同一集群中
告警信息
处理过程

分析当时系统重启时的日志,所有信息都指向CFS资源调度进程,在实验室测试做镜像环境测试,当CFS功能开启并且CPU压力超过80%时,问题复现。

根因
红帽内核  distribute_cfs_runtime  函数导致,当单台服务器CPU数量超过2个,并且CPU压力超过80%时,该函数会进行资源调度调整,但由于函数本身问题,导致在资源调度市出现进程挂死,系统重启。
解决方案

关闭CFS资源调度,或者安装红帽补丁(具体补丁版本RedHat厂家尚未给出,只有测试kernel)

测试kernel链接:

http://kernel.opensuse.org/cgit/kernel-source/commit/?h=rpm-3.0.101-60&id=fa5efb1206e3d1764ca33e936ae12f64924ea110

END