FusionInsight(V100R002C60U10SPC002)Hive集群FusionInsight Manager出现节点故障告警

发布时间:  2016-12-26 浏览次数:  118 下载次数:  0
问题描述

版本信息:FusionInsight(V100R002C60U10SPC002),RH5288 V3,Redhat 6.6

故障现象:网卡绑定后,查看相应信息并进行相应倒换测试成功后,重启服务器发现倒换测试不成功。

     1)在FusionInsight Manager页面,在告警列表中发现告警。告警ID为12006,信息为节点故障。

     2)使用ifconfig |grep HWaddr命令,在输出信息可以看到,bond0的mac地址和bonding接口的eth0/eth1的mac不一致。

网卡绑定:

(此处是将eth0/eth1绑定为bond0,绑定模式mode=4

增加ifcfg-bond0配置文件

vi /etc/sysconfig/network-scripts/ifcfg-bond0

[增加以下内容]

DEVICE=bond0

ONBOOT="yes"

BOOTPROTO=static

IPADDR=xxx.xxx.xxx.xxx

NETMASK=255.255.255.0 

执行命令:

echo "alias bond0 bonding" >> /etc/modprobe.d/dist.conf

echo "options bond0 miimon=100 mode=4" >> /etc/modprobe.d/dist.conf

echo "ifenslave bond0 eth0 eth1" >> /etc/rc.local

 

配置单网卡信息:

vi /etc/sysconfig/network-scripts/ifcfg-eth0

DEVICE=eth0

BOOTPROTO=none

#HWADDR="D4:AE:52:64:69:67"

#NM_CONTROLLED=yes

ONBOOT=yes

TYPE="Ethernet"

#UUID="bcbadfd8-74fe-4b9d-bd21-fb5cfc54693e"

MASTER=bond0

同时需要在ifcfg-eth1中完成修改

vi /etc/sysconfig/network-scripts/ifcfg-eth1

DEVICE=eth1

BOOTPROTO=none

#HWADDR="D4:AE:52:64:69:68"

#NM_CONTROLLED=yes

ONBOOT=yes

TYPE="Ethernet"

#UUID="bcbadfd8-74fe-4b9d-bd21-fb5cfc54693e"

MASTER=bond0





告警信息

在FusionInsight Manager页面,在告警列表中发现告警。告警ID为12006,信息为节点故障。

处理过程

原因分析:

1.确实出现管理节点到该节点ping不通

2.发现网卡绑定没有成功,接口物理mac和bond0的mac不一致。

处理过程:

1、根据集群内的管理页面上的提示,确定在管理节点上确实ping不通

2、查看相应的线路及有问题节点的配置情况,发现该节点网卡绑定状态不正常

3、查看相关配置,一切都是正常的,查看NetworkManager服务已开启,关闭后重启网络服务就一切正常,重启服务器依旧出现ping不通的问题。

4、查找命令,输入ntsysv,关闭NetworkManager服务开机自启。重启服务器达到预期效果。

根因
  重启服务器后,NetworkManager服务自启动。
  由于接口下NM_CONTROLLED参数存在,则在开机时将优先调用NetworkManager中的配置文件直接调用物理接口中的真实物理mac,则会导致接口的物理mac和bond不一致的情况,导致一条线可以ping通,换另一根线则不能ping通。网卡绑定状态不正常造成主备倒换不成功,导致节点之间心跳报文不能及时到达,从而导致集群内存在节点故障的告警。
  因此将NetworkManager永久关闭即可。
解决方案

关闭NetworkManager服务开机自启,重启服务器即可达到效果。

执行

1)service NetworkManager stop(关闭NetworkManager服务)

2)chkconfig NetworkManager off(禁止NetworkManager服务开机自启)或输入ntsysv,关闭NetworkManager服务开机自启


建议与总结

根据页面上的节点故障的提示,首先缩小排查的范围,一步一步接近问题原因并进行验证。

END