Singlecloud运维管理系统监控异常

发布时间:  2015-03-05 浏览次数:  211 下载次数:  0
问题描述
现场业务运行正常,通过OMS Portal查看集群资源容量、工作负载(CPU和内存等占用信息)等信息均无法正常显示如下图,将IE缓存清除问题依旧。

处理过程
1、重启OMM节点上的CEP进程。
      登录OMM主节点,执行如下命令:
      /opt/omm/oms/services/pm/bin/dca-cep-manage.sh restart



2、 通过MCNA推送重启非MCNA节点的PMA进程,命令如下:
psh all sh /opt/omm/oma/services/pm/lib/depend/pm_a/startGatherPlugIns.sh restart



备注:该命令执行完后会报出MCNA执行错误信息“ssh exited with error code 255”,这是由于MCNA无法推送自己执行命令导致。

3、重启MCNA节点的PMA进程,命令如下:
sh /opt/omm/oma/services/pm/lib/depend/pm_a/startGatherPlugIns.sh restart

根因
OMS监控实时分析进程(CEP)不定期出现socket句柄增加,最终达到Linux系统上限,导致句柄泄露。

通过以下方式确认问题:
1)登录OMM主节点,执行命令,查看CEP进程号,如下为15430
ps -ef|grep com.omm.cep|grep -v "grep"|awk '{print $2}'



2)查看该进程当前的socket句柄个数,如果查看获得CEP进程当前socket句柄数超过8000,则说明有句柄泄露。
ll /proc/15430/fd|grep socket|wc -l



END