C01SPC200版本桌面云omsportal监控不到节点数据

发布时间:  2012-10-23 浏览次数:  98 下载次数:  6
问题描述
omsportal上,许多个物理节点的CPU占用率,内存占用率等都为0,在设备监控中常看任意一个物理节点信息的所有监控信息全部都为null(甚至设备监控页面都打不开,具体图片,因为网页显示偶尔会异常,请参考附件)。
告警信息
无,直接从页面上可以查看到
处理过程
用putty登录到OMM主节点,执行以下命令:
sh /opt/omm/oms/services/pm/bin/dca-cep-manage.sh restart
登录MCNA节点,执行以下命令:
psh all sh /opt/omm/oma/services/pm/lib/depend/pm_a/startGatherPlugIns.sh restart
等待一会儿,之后在到omsportal上查看,可以恢复正常。
根因
出现问题局点的物理服务器规模都在350个以上,当环境规模较大时,会导致监控数据分析进程CEP的数据吞吐量大大增加,但每次连接有数据大小的限制,导致连接数目增多,最终达到系统最大连接数后,CEP分析的数据也无法入库,监控的数据无法再给CEP分析,监控发送数据的flume-agent端缓存溢出,进程挂死,被软件狗重启后,却因为长连接处理得不好的原因导致监控服务器数据的采集进程PMA采集到的数据无法发给flume-agent,最终造成了服务器监控数据的丢失,页面呈现为null或0。
建议与总结

END