Hadoop balancer优化HDFS存储问题

今天早上起来在查看flume采集数据到hdfs的文件列表时发现单个生成的文件都是几十KB或者几百KB，到CM上查看集群状态时发现一个DataNode节点存储已经满了，我估计因为这影响了flume生成文件。于是使用了Hadoop的balancer小工具。
介绍下balancer：balancer是当hdfs集群中一些datanodes的存储要写满了或者有空白的新节点加入集群时，用于均衡hdfs集群磁盘使用量的一个工具。这个工具作为一个应用部署在集群中，可以由集群管理员在一个live的cluster中执行。

Rebalance程序作为一个独立的进程与name node进行分开执行。
1 Rebalance Server从Name Node中获取所有的Data Node情况：每一个Data Node磁盘使用情况。
2 Rebalance Server计算哪些机器需要将数据移动，哪些机器可以接受移动的数据。并且从Name Node中获取需要移动的数据分布情况。
3 Rebalance Server计算出来可以将哪一台机器的block移动到另一台机器中去。
4,5,6 需要移动block的机器将数据移动的目的机器上去，同时删除自己机器上的block数据。
7 Rebalance Server获取到本次数据移动的执行结果，并继续执行这个过程，一直没有数据可以移动或者HDFS集群以及达到了平衡的标准为止。

1-7为一个迭代，这个工具迭代的把数据块从利用率高的datanode移到利用率低的datanode。

balancer在如下5种情况下会自动退出：

①集群已达到均衡状态；

②没有block能被移动；

③连续5次迭代移动没有任何一个block被移动；

④当与namenode交互式出现了IOException；

⑤另一个balancer在运行中。

对应5个退出信息：

The cluster is balanced. Exiting
No block can be moved. Exiting…
No block has been moved for 5 iterations. Exiting…
Received an IO exception: failure reason. Exiting…
Another balancer is running. Exiting…

Balancer阈值越高，需要平衡的量越少，DN占用率不够均衡；阈值越低，需要平衡的量越大， DN占有率越均衡。
直接可以使用命令：

hdfs balancer -threshold 10

Hadoop balancer优化HDFS存储问题

猜你喜欢