FusionInsight V100R002C60U10 交警指挥平台数据积压

发布时间:  2017-05-24 浏览次数:  155 下载次数:  0
问题描述

用户业务平台的数据处于积压状态,越来越多一直未处理,下图红框是正常的状态,用户异常状态下积压量是3000多,且一直在持续增长


处理过程

此类问题排查方法如下:

1、进入yarn原生页面,查看业务的对应任务名的状态为accepted,正常应该是Running 状态

2、查看集群运行情况,Apps pending数量为7,表示有7个任务等待资源释放


3、查看队列资源使用情况,发现提交任务的队列memory和vcores已经使用完了,没有多余的资源继续跑任务

4、进入集群租户管理,查看队列tentA资源配置情况,发现资源配置不合理,最大资源百分比只有0.1无法满足业务需求


5、修改队列最大资源占比,修改后进入yarn原生页面队列查看资源情况,已有可用资源


6、再次查看任务对应的oozie已正常启动,业务数据积压也正常处理,问题解决


根因

集群资源配置不合理导致业务启任务的时候获取不到队列资源,任务无法继续执行一直等待资源释放,最终导致业务数据积压

解决方案

检查集群资源情况,重新配置队列资源,调大AM最大资源百分比

END