Hadoop 新特性

三、Hadoop新特性

3.1 Hadoop2.x新特性

3.1.1 集群间数据拷贝

1)scp 实现两个远程主机之间的文件复制

​ scp -r hello.txt root@hadoop106:/user/xiaoxq/hello.txt // 推 push

​ scp -r root@hadoop106:/user/xiaoxq/hello.txt hello.txt // 拉 pull

​ scp -r root@hadoop106:/user/xiaoxq/hello.txt root@hadoop106:/user/xiaoxq //是通过本地主机中转实现两个远程主机的文件复制;如果在两个远程主机之间ssh没有配置的情况下可以使用该方式。

2)采用distcp命令实现两个Hadoop集群之间的递归数据复制

[xiaoxq@hadoop105 hadoop-3.1.3]$  bin/hadoop distcp hdfs://hadoop105:9820/user/xiaoxq/hello.txt hdfs://hadoop107:9820/user/xiaoxq/hello.txt

3.1.2 小文件存档

在这里插入图片描述

1)案例实操

(1)需要启动YARN进程

[xiaoxq@hadoop106 hadoop-3.1.3]$ start-yarn.sh

(2)归档文件

​ 把/user/xiaoxq/input目录里面的所有文件归档成一个叫input.har的归档文件,并把归档后文件存储到/user/xiaoxq/output路径下。

[xiaoxq@hadoop105 hadoop-3.1.3]$ hadoop archive -archiveName input.har -p  /user/xiaoxq/input   /user/xiaoxq/output

(3)查看归档

[xiaoxq@hadoop105 hadoop-3.1.3]$ hadoop fs -ls /user/xiaoxq/output/input.har

[xiaoxq@hadoop105 hadoop-3.1.3]$ hadoop fs -ls har:///user/xiaoxq/output/input.har

(4)解归档文件

[xiaoxq@hadoop105 hadoop-3.1.3]$ hadoop fs -cp har:/// user/xiaoxq/output/input.har/*    /user/xiaoxq

3.1.3 回收站

  • 开启回收站功能,可以将删除的文件在不超时的情况下,恢复原数据,起到防止误删除、备份等作用。

1)回收站参数设置及工作机制

在这里插入图片描述

2)启用回收站

修改core-site.xml,配置垃圾回收时间为1分钟。

<property>
	<name>fs.trash.interval</name>
	<value>1</value>
</property>

3)查看回收站

回收站目录在hdfs集群中的路径:/user/xiaoxq/.Trash/….

4)通过程序删除的文件不会经过回收站,需要调用moveToTrash()才进入回收站

Trash trash = New Trash(conf);
trash.moveToTrash(path);

5)通过网页上直接删除的文件也不会走回收站。

6)只有在命令行利用hadoop fs -rm命令删除的文件才会走回收站。

[xiaoxq@hadoop105 hadoop-3.1.3]$ hadoop fs -rm -r /user/xiaoxq/input

2020-07-14 16:13:42,643 INFO fs.TrashPolicyDefault: Moved: 'hdfs://hadoop105:9820/user/xiaoxq/input' to trash at: hdfs://hadoop105:9820/user/xiaoxq/.Trash/Current/user/xiaoxq/input

7)恢复回收站数据

[xiaoxq@hadoop105 hadoop-3.1.3]$ hadoop fs -mv

/user/xiaoxq/.Trash/Current/user/xiaoxq/input    /user/xiaoxq/input

3.2 Hadoop3.x 新特性

3.2.1 多NN的HA架构

​ HDFS NameNode 高可用性的初始实现为单个活动NameNode 和单个备用 NameNode,将edits复制到三个JournalNode。该体系结构能够容忍系统中一个NN或一个JN的故障。

​ 但是,某些部署需要更高程度的容错能力。Hadoop3.x允许用户运行多个备用 NameNode。例如,通过配置三个 NameNode 和五个 JournalNode,群集能够容忍两个节点而不是一个节点的故障。

3.2.2 纠删码

​ HDFS 中的默认3副本方案在存储空间和其他资源(例如,网络带宽)中具有200%的开销。但是,对于I / O活动相对较低暖和冷数据集,在正常操作期间很少访问其他块副本,但仍会消耗与第一个副本相同的资源量。

​ 纠删码(Erasure Coding)能够在不到50% 的数据冗余情况下提供和3副本相同的容错能力,因此,使用纠删码作为副本机制的改进是自然而然的。

查看集群支持的纠删码策略:hdfs ec -listPolicies

猜你喜欢

转载自blog.csdn.net/weixin_48067943/article/details/107649307