所选语种没有对应资源,请选择:

本站点使用Cookies,继续浏览表示您同意我们使用Cookies。Cookies和隐私政策>

提示

尊敬的用户,您的IE浏览器版本过低,为获取更好的浏览体验,请升级您的IE浏览器。

升级
案例库

批量更换大数据HD集群中故障数据磁盘

发布时间:  2018-09-11  |   浏览次数:  1295  |   下载次数:  3  |   作者:  l00310446  |   文档编号: EKB1001849279

目录

问题描述

当部署的大数据集群中需要对批次故障磁盘进行替换时,可考虑本方案。此方案仅适用于数据节点,且节点类型仅涉及hbase、Hive、spark、kafka服务实例。

处理过程

批量换盘操作可优先由物理硬件raid方案保障,当磁盘配置了raid5时(如kafka服务),可通过直接对磁盘组中的某一块盘进行拔出后,直接进行同步,反复执行即可,大数据软件层不需要关注。

如果磁盘配置了raid0或noraid模式,整体处理思路可考虑对需要替换的节点进行退服操作后,对故障磁盘批次更换,再将节点加入到集群中。

针对节点上安装了多个实例服务的情况下,可按照如下原则进行退服操作:以hbase节点为例,上面通常有3个服务实例,RegionServer、NodeManager,DataNode

1、优先停止管理进程,如hbase节点可优先停止RegionServer服务实例,如业务未停止,可考虑分批执行停止操作。

2、退服NodeManager,可通过查看yarn的WebUI查看是否有任务运行,如有任务运行,可考虑按机柜分批停止进程实例。如未有业务运行,可批量停止服务实例。

3、退服DataNode,建议分批退服该角色实例,可按机柜维度分批停止,确保数据副本无丢失。

退服操作可调整集群参数,对退服进行调优,注意,更改参数需要重启服务。需要修改的参数如下:
  


 

组件


 

 

实例


 

 

参数类别


 

 

参数名称


 

 

默认值


 

 

修改值


 

 

参数含义


 

 

调整场景


 

 

是否可以默认值调整


 

 

HDFS


 

 

NameNode


 

 

balance/退服性能参数


 

 

dfs.datanode.balance.bandwidthPerSec


 

 

20971520


 

 

209715200


 

 

【说明】每个DataNode可用于负载均衡的最大带宽量(每秒的字节数)。


 

 

balance-性能调优


 

 

不建议调整默认值


 

 

HDFS


 

 

DataNode


 

 

balance/退服性能参数


 

 

dfs.datanode.balance.max.concurrent.moves


 

 

5


 

 

30


 

 

允许在DataNode上进行负载均衡的最大线程数。


 

 

 


 

 

有必要调整


 

 

HDFS


 

 

NameNode


 

 

balance/退服性能参数


 

 

dfs.namenode.replication.max-streams


 

 

10


 

 

64


 

 

DataNode上复制线程的最大数。


 

 

 


 

 

C70默认值已调整为64,有必要继续调整


 

 

HDFS


 

 

NameNode


 

 

balance/退服性能参数


 

 

dfs.namenode.replication.max-streams-hard-limit


 

 

20


 

 

500


 

 

DataNode上复制线程数的硬限制。


 

 

 


 

 

C70默认值已调整为128,有必要继续调整


 

 

HDFS


 

 

NameNode


 

 

balance/退服性能参数


 

 

dfs.namenode.replication.work.multiplier.per.iteration


 

 

10


 

 

500


 

 

高级属性。修改时需谨慎。该参数表示NameNode通过DataNode心跳发送这样一个命令列表时DataNode上并行开始的用于复制的块传输的总量。


 

 

 


 

 

 


 



 

HDFS


 

 

NameNode


 

 

运行-性能调优


 

 

dfs.namenode.handler.count


 

 

64


 

 

192


 

 

NameNode处理线程数


 

 

大集群,性能调优


 

 

可以调整/更耗内存


 

 

HDFS


 

 

DataNode


 

 

运行-性能调优


 

 

dfs.datanode.handler.count


 

 

8


 

 

24


 

 

DataNode处理线程数


 

 

大集群,性能调优


 

 

可以调整/更耗内存


 


 

HDFS


 

 

NameNode


 

 

运行-性能调优


 

 

ipc.server.read.threadpool.size


 

 

1


 

 

10


 

 

NameNode处理请求线程池大小


 

 

大集群,性能调优


 

 

可以调整/更耗内存


 


 

HDFS


 

 

DataNode


 

 

运行-性能调优


 

 

dfs.datanode.max.transfer.threads


 

 

4096


 

 

8192


 

 

DataNode间传输数据的线程的最大数。


 

 

负载高集群,性能调优


 

 

C70默认值已调整