FusionInsight C60U10SPC002 Kafka磁盘容量不足告警

发布时间:  2017-06-07 浏览次数:  519 下载次数:  0
问题描述

集群告警kafka磁盘容量不足,检查每个节点kafka使用空间都很大


处理过程

1、根据显示的磁盘目录,进入data1中kafka-logs目录发现其中一个__consumer_offsets目录较大


2、进入__consumer_offsets目录执行du -sh .命令检查发现总容量为2.2T


3、查看文件情况,发现从2月份开始到当前时间有大量的log日志产生,总共4万多个文件



4、通过排查确认,此问题为目前版本默认情况下log.cleaner.enable为false,无法对Kafka内部Offset Topic进行正常compact,会导致__consumer_offsets不断积压,直到磁盘撑爆

5、解决方法及影响:
方法一:升级V100R002C60U10SPC006补丁,影响:此补丁为冷不丁,升级过程中需要停止集群,所以需要协调升级时间窗停业务升级。
方法二:修改configurations.xml中将log.cleaner.enable默认值修改为true(在界面上进入kafka服务配置->参数类别改为全部配置->搜索cleaner),如下图所示,默认为false需要改true。
影响:需要修改此配置需要重启kafka服务,需要停止kafka所有业务再进行操作。

6、若选择修改参数,修改后重启kafka实例,几分钟内会出现健康状态"恢复中",这是正常现象,过会就好了


7、过几小时再观察日志发现已自动清除,空间释放,告警清除。



根因
目前版本默认情况下log.cleaner.enablefalse,无法对Kafka内部Offset Topic进行正常compact,会导致__consumer_offsets不断积压,直到磁盘撑爆
解决方案

方法一:升级V100R002C60U10SPC006补丁,影响:此补丁为冷不丁,升级过程中需要停止集群,所以需要协调升级时间窗停业务升级。

方法二:修改configurations.xml中将log.cleaner.enable默认值修改为true(在界面上进入kafka服务配置->参数类别改为全部配置->搜索cleaner),如下图所示,默认为false需要改true

影响:需要修改此配置需要重启kafka服务,需要停止kafka业务再进行操作。

END