FusionInsight HD(V1R2C50SPC200) 数据节点启动失败

发布时间:  2016-08-08 浏览次数:  173 下载次数:  1
问题描述

FusionInsight 版本:V100R002C50SPC200,重启HDFS服务,其中一个数据节点不能变成started状态,如下图所示:


告警信息

2016-06-28 18:17:29,595 | FATAL | main | Exception in secureMain | DataNode.java:2551

java.net.BindException: bind(2) error: Address already in use when trying to bind to '/home/omm/dn_socket'

处理过程

原因分析:

1.       查看运行日志hadoop-omm-datanode-hadoop12.log 中有明显错误,导致启动失败:2016-06-28 18:17:29,595 | FATAL | main | Exception in secureMain | DataNode.java:2551

java.net.BindException: bind(2) error: Address already in use when trying to bind to '/home/omm/dn_socket'

/home/omm/dn_socket该文件在被使用会导致此问题,原因是某些进程使用了此文件,或者权限不对。

2.       查看'/home/omm/dn_socket'的权限设置,发现该文件不能被读写,文件系统为只读 ,如下图所示:


3.       cat /proc/mounts 显示文件系统状态为ro


4.确认底层硬盘或者raid无故障,直接重新挂载分区为读写:mount -o remount,rw /

5.通过cat /proc/mounts  确认分区已恢复成rw状态

6.重启DATANODE实例,状态恢复正常。

根因

文件系统状态异常。

解决方案

根分区变成只读了,重新挂载为读写之后重启服务正常。

END