Hadoop balancer优化HDFS存储问题

今天早上起来在查看flume采集数据到hdfs的文件列表时发现单个生成的文件都是几十KB或者几百KB,到CM上查看集群状态时发现一个DataNode节点存储已经满了,我估计因为这影响了flume生成文件。于是使用了Hadoop的balancer小工具。
介绍下balancer:balancer是当hdfs集群中一些datanodes的存储要写满了或者有空白的新节点加入集群时,用于均衡hdfs集群磁盘使用量的一个工具。这个工具作为一个应用部署在集群中,可以由集群管理员在一个live的cluster中执行。

Rebalance程序作为一个独立的进程与name node进行分开执行。
1 Rebalance Server从Name Node中获取所有的Data Node情况:每一个Data Node磁盘使用情况。
2 Rebalance Server计算哪些机器需要将数据移动,哪些机器可以接受移动的数据。并且从Name Node中获取需要移动的数据分布情况。
3 Rebalance Server计算出来可以将哪一台机器的block移动到另一台机器中去。
4,5,6 需要移动block的机器将数据移动的目的机器上去,同时删除自己机器上的block数据。
7 Rebalance Server获取到本次数据移动的执行结果,并继续执行这个过程,一直没有数据可以移动或者HDFS集群以及达到了平衡的标准为止。

1-7为一个迭代,这个工具迭代的把数据块从利用率高的datanode移到利用率低的datanode。

balancer在如下5种情况下会自动退出:

①集群已达到均衡状态;

②没有block能被移动;

③连续5次迭代移动没有任何一个block被移动;

④当与namenode交互式出现了IOException;

⑤另一个balancer在运行中。

对应5个退出信息:

  • The cluster is balanced. Exiting

  • No block can be moved. Exiting…

  • No block has been moved for 5 iterations. Exiting…

  • Received an IO exception: failure reason. Exiting…

  • Another balancer is running. Exiting…

Balancer阈值越高,需要平衡的量越少,DN占用率不够均衡;阈值越低,需要平衡的量越大, DN占有率越均衡。
直接可以使用命令:

hdfs balancer -threshold 10

猜你喜欢

转载自blog.csdn.net/weixin_43840194/article/details/86610434