CNA节点管理域CPU占用率超过阈值

发布时间:  2015-03-05 浏览次数:  252 下载次数:  1
问题描述
CNA节点管理域CPU占用率超过阈值告警,该节点只有2个业务虚拟机,迁移走后,管理域CPU占用率仍然没有得到释放。
告警信息
CNA节点管理域CPU占用率超过阈值告警。

处理过程

FC Portal产生管理域CPU占用率超过阈值告警,怀疑与业务压力有关。

1、排查CNA节点,发现只有2个业务虚拟机,将该CNA节点上的虚拟机迁移空后,管理域CPU占用率资源仍然没有得到释放,达90%以上,如下图所示。

2、root账号进入CNA节点操作系统,查看Domain-0虚拟机的CPU占用率情况,确实比较高,如下图所示。


 

进一步查看CNA进程资源使用情况,top命令发现IPMI进程的CPU占用率有些异常。
 

根据上面现象怀疑与环境有关。

3、从现场了解到,属于异构虚拟化环境,服务器硬件(联想服务器)无BMC模块,而UVP系统存在IPMI模块,软件狗喂硬件狗的动作是通过主机内的IPMI模板块与BMC模块之间的交互实现的;如服务器硬件无BMC模块来处理IPMI命令,IPMI模块在交互时未得到响应,导致IPMI进程持续等待,进入卡死状态。因此,此问题是由IPMI模块跟BMC模块交互导致的。

4、软件狗功能说明
周期监测与汇聚交换机的连通性、周期监控业务进程状态、控制DRBD升主降备、周期喂硬件狗。 

根因
服务器硬件无BMC模块来处理IPMI命令,IPMI模块在交互时未得到响应,导致IPMI进程持续等待,进入卡死状态。
解决方案
此类现象可以使用停止IPMI服务的方法来解决。使用root账号登录CNA节点的UVP系统,执行如下操作停止IPMI服务。
1、停止IPMI服务。
service ipmi stop
2、取消ipmi服务开机启动。
chkconfig ipmi off
建议与总结
异构环境的服务器无BMC模块时,关闭UVP系统的IPMI模板。

END