FusionInsight HD zk盘合布导致实例异常

发布时间:  2017-05-20 浏览次数:  181 下载次数:  0
问题描述
集群部署5个zookeeper节点,其中一个节点上quorumpeer状态显示恢复中

处理过程

1.  查看实例健康检查日志  频繁查询不到zk状态,确认zk实例运行异常


2.  查看ZooKeeper运行日志,发现有 shutdown的情况

2017-05-17 01:13:17,144 | WARN  | QuorumPeer[myid=42](plain=/10.6.81.38:24002)(secure=disabled) | Exception when following the leader | org.apache.zookeeper.server.quorum.Follower.followLeader(Follower.java:93)

java.io.EOFException

         at java.io.DataInputStream.readInt(DataInputStream.java:392)

         at org.apache.jute.BinaryInputArchive.readInt(BinaryInputArchive.java:63)

         at org.apache.zookeeper.server.quorum.QuorumPacket.deserialize(QuorumPacket.java:83)

         at org.apache.jute.BinaryInputArchive.readRecord(BinaryInputArchive.java:99)

         at org.apache.zookeeper.server.quorum.Learner.readPacket(Learner.java:156)

         at org.apache.zookeeper.server.quorum.Follower.followLeader(Follower.java:89)

         at org.apache.zookeeper.server.quorum.QuorumPeer.run(QuorumPeer.java:1138)

2017-05-17 01:13:17,145 | INFO  | QuorumPeer[myid=42](plain=/10.6.81.38:24002)(secure=disabled) | Unregister MBean [org.apache.ZooKeeperService:name0=ReplicatedServer_id42,name1=replica.42,name2=Follower] | org.apache.zookeeper.jmx.MBeanRegistry.unregister(MBeanRegistry.java:152)

2017-05-17 01:13:17,145 | INFO  | QuorumPeer[myid=42](plain=/10.6.81.38:24002)(secure=disabled) | shutdown called | org.apache.zookeeper.server.quorum.Follower.shutdown(Follower.java:198)

java.lang.Exception: shutdown Follower

 

 

3.  查看ZooKeeper运行日志,搜索 fsync ,大量的fsync相关日志,该日志说明ZooKeeper将数据存入磁盘慢,导致ZooKeeper节点间心跳超时,进而ZooKeeper实例异常


4.df -h查看磁盘划分情况,zk数据盘没有单独划分区,而是和其他盘合布的


根因

zookeeper的磁盘是和其余组件一起合设的,不是采用单独的磁盘挂载。

解决方案

建议进行调整,避免后续的问题,调整方法如下:

1 停止某一个节点zookeeper服务,

2 zookeeper划分单独的磁盘,

3、将zookeeper数据路径挂载到单独的磁盘,数据路径可以通过zookeeper组件服务配置界面查看(注意目录权限为omm :wheel


4 然后启动zookeeper服务。

从异常节点开始,依次调整所有zookeeper节点的信息。即等当前节点正常后再调整其余节点。

 

临时规避方式:

修改zookeeper中的tickTime syncLimit 参数,将其值翻倍。以tickTime修改为例,如下图所示:

如果不想影响业务的话,可以先只重启异常节点的实例,其余正常节点的先不重启,以后找个时间窗口重启。

建议与总结

zookeeper数据磁盘对磁盘性能要求较高,强烈建议使用单独磁盘部署。

END