所选语种没有对应资源,请选择:

本站点使用Cookies,继续浏览表示您同意我们使用Cookies。Cookies和隐私政策>

提示

尊敬的用户,您的IE浏览器版本过低,为获取更好的浏览体验,请升级您的IE浏览器。

升级
案例库

FusionInsight C60U10主机异常停止启动后nodemanager故障

发布时间:  2017-09-07  |   浏览次数:  833  |   下载次数:  0  |   作者:  wWX465735  |   文档编号: EKB1000860034

目录

问题描述

集群中某节点需要更换内存,更换节点内存后启动主机,nodemanager实例处于故障状态,重启实例仍然无法解决

告警信息


处理过程

1、重启实例,收集异常节点重启实例前后半小时nodemanager日志

2、分析日志:查看gc日志未发现有fullgc,查看nodemanager运行日志,有如下报错


这个报错通常来说是进程被nodeagent kill掉了,另一个错误是临时文件无法读取导致无法恢复

这个报错是因为registeredExecutors.ldb 是内存产生的文件,内存更换后这个文件损坏导致无法读取

3、异常实例添加自定义参数:nodemanager.yarn-site.customized.configs参数名为yarn.nodemanager.disk-health-checker.log-dirs.max-disk-utilization-per-disk-percentage  值为-1

实例启动时会du磁盘,如果有异常文件可能会导致实例异常,添加此参数就是控制启动时不du,添加参数后启动实例正常,问题解决

根因

内存故障,更换内存后os缓存丢失,实例启动时du磁盘找不到这个有效文件导致异常

解决方案

添加自定义参数nodemanager.yarn-site.customized.configs,参数名为yarn.nodemanager.disk-health-checker.log-dirs.max-disk-utilization-per-disk-percentage  值为-1,修改后启动实例不会du磁盘,启动正常