文章目录

一、HDFS概述
- 1. HDFS产出背景及定义
- - 1）HDFS产生背景
  - 2）HDFS定义
- 2. HDFS优缺点
- - 1）HDFS优点
  - 2）HDFS缺点
- 3. HDFS组成架构
- 4. HDFS文件块大小
二、HDFS的shell操作
- 1. 基本语法
- 2. 命令大全
三、HDFS的API操作
- 1. Windows 系统客户端环境准备
- 2. API 操作
四、HDFS读写数据流程
- 1. HDFS写数据流程
- 2. 网络拓扑-节点距离计算
- 3. 机架感知（副本存储节点选择）
- 4. HDFS读数据流程
五、NameNode和SecondaryNameNode
- 1. NN 和 2NN 工作机制
- 2. Fsimage和Edits解析
- - 1）oiv查看Fsimage文件
  - 2）oev查看Edits文件
- 3. SecondaryNameNode 设置
六、DataNode
- 1. DataNode工作机制
- 2. 数据完整性
- 3. 掉线时限参数设置
七、HDFS 核心参数配置
- 1. NameNode 内存配置
- 2. NameNode心跳并发配置
- 3. 开启回收站配置
八、HDFS—集群压测
- 1. 测试HDFS写性能
- 2. 测试HDFS读性能
- - （1）测试
  - （2）测试结果分析
- 3. 删除测试生成数据
九、多目录
- 1. NameNode多目录配置
- 2. DataNode多目录配置
- 3. 集群数据均衡之磁盘间数据均衡
十、集群扩容及缩容
- 1. 添加白名单
- 2. 服役新服务器
- 3. 服务器间数据均衡
- 4. 黑名单退役服务器
十一、存储优化
- 1. 纠删码
- 2. 异构存储（冷热数据分离）
十二、HDFS—故障排除
- 1. NameNode数据丢失
- 2. 集群安全模式&磁盘修复
- 3. 慢磁盘监控
- - 1）通过心跳未联系时间。
  - 2）fio 命令，测试磁盘的读写性能
- 4. 小文件归档
十三、HDFS—集群迁移
- 1. Apache和Apache集群间数据拷贝
- 2. Apache和CDH集群间数据拷贝

一、HDFS概述

3.3.1版本官方文档：https://hadoop.apache.org/docs/r3.3.1/hadoop-project-dist/hadoop-hdfs/HdfsDesign.html
其它版本官方文档：https://hadoop.apache.org/docs/

1. HDFS产出背景及定义

1）HDFS产生背景

随着数据量越来越大，在一个操作系统存不下所有的数据，那么就分配到更多的操作系统管理的磁盘中，但是不方便管理和维护，迫切需要一种系统来管理多台机器上的文件，这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。

2）HDFS定义

HDFS（Hadoop Distributed File System），它是一个文件系统，用于存储文件，通过目录树来定位文件；其次，它是分布式的，由很多服务器联合起来实现其功能，集群中的服务器有各自的角色。
HDFS的使用场景：适合一次写入，多次读出的场景。一个文件经过创建、写入和关闭之后就不需要改变。

2. HDFS优缺点

1）HDFS优点

高容错性
- 数据自动保存多个副本。它通过增加副本的形式，提高容错性。
- 某一个副本丢失以后，它可以自动恢复。
适合处理大数据
- 数据规模：能够处理数据规模达到GB、TB、甚至PB级别的数据;
- 文件规模：能够处理百万规模以上的文件数量，数量相当之大。
可构建在廉价机器上，通过多副本机制，提高可靠性。

2）HDFS缺点

不适合低延时数据访问，比如毫秒级的存储数据，是做不到的。
无法高效的对大量小文件进行存储。
- 存储大量小文件的话，它会占用 NameNode 大量的内存来存储文件目录和块信息（150B）。这样是不可取的，因为 NameNode 的内存总是有限的；
- 小文件存储的寻址时间会超过读取时间，它违反了HDFS的设计目标。
不支持并发写入、文件随机修改。
- 一个文件只能有一个写，不允许多个线程同时写；
- 仅支持数据 append（追加），不支持文件的随机修改。

3. HDFS组成架构

在这里插入图片描述

1、NameNode（nn）：就是 Master ，它是一个主管、管理者。

管理HDFS的名称空间;
配置副本策略;
管理数据块（Block）映射信息;
处理客户端读写请求。

2、DataNode：就是Slave。NameNode 下达命令， DataNode 执行实际的操作。

存储实际的数据块;
执行数据块的读/写操作.

3、 Client：就是客户端。

文件切分。文件上传 HDFS 的时候，Client 将文件切分成一个一个的 Block，然后进行上传;
与 NameNode 交互，获取文件的位置信息;
与 DataNode 交互，读取或者写入数据;
Client 提供一些命令来管理 HDFS ，比如 NameNode 格式化;
Client 可以通过一些命令来访问 HDFS ，比如对 HDFS 增删查改操作;

4、 Secondary NameNode：并非 NameNode 的热备。当 NameNode 挂掉的时候，它并不能马上替换 NameNode 并提供服务。

辅助 NameNode ，分担其工作量，比如定期合并 Fsimage 和 Edits ，并推送给 NameNode ;
在紧急情况下，可辅助恢复 NameNode.

4. HDFS文件块大小

HDFS中的文件在物理上是分块存储（Block），块的大小可以通过配置参数（ dfs.blocksize ）来规定，默认大小在 Hadoop2.x/3.x 版本中是128M ， 1.x 版本中是 64M。

集群中的 block，寻址时间为传输时间的 1% 时，则为最佳状态。

简单的计算：如果寻址时间约为 10ms，即查找到目标 block 的时间为 10ms 时，传输时间=10ms/0.01=1000ms=1s。而目前磁盘的传输速率普遍为 100MB/s。所以 block大小=1s*10MB/s=100MB，1024 的倍数即 128M

为什么块的大小不能设置太小，也不能设置太大?

HDFS 的块设置太小，会增加寻址时间，程序一直在找块的开始位置;
如果块设置的太大，从磁盘传输数据的时间会明显大于定位这个块开始位置所需的时间。导致程序在处理这块数据时，会非常慢。

总结： HDFS块的大小设置主要取决于磁盘传输速率。

二、HDFS的shell操作

1. 基本语法

两种语法格式是完全相同的

hadoop fs 具体命令
hdfs dfs 具体命令

-help：输出这个命令的具体参数

$ hadoop fs -help rm

2. 命令大全

1）上传

hadoop fs 上传命令 本地文件或文件夹 hadoop目录

命令	说明	示例
-moveFromLocal	从本地剪切粘贴到HDFS	hadoop fs -moveFromLocal ./shuguo.txt /sanguo
-copyFromLocal	从本地文件系统中拷贝文件到HDFS路径去	hadoop fs -copyFromLocal weiguo.txt /sanguo
`-put`	等同于copyFromLocal，生产环境更习惯用put	hadoop fs -put ./wuguo.txt /sanguo
-appendToFile	追加一个文件到已经存在的文件末尾	hadoop fs -appendToFile liubei.txt /sanguo/shuguo.txt

2）下载

命令	说明	示例
-copyToLocal	从HDFS拷贝到本地	hadoop fs -copyToLocal /sanguo/shuguo.txt ./
-get	等同于copyToLocal，生产环境更习惯用get	hadoop fs -get /sanguo/shuguo.txt ./shuguo2.txt

3）HDFS直接操作

命令	说明	示例
-help	输出某个命令的参数	hadoop fs -help rm
-ls	显示目录信息	hadoop fs -ls /sanguo
-cat	显示文件内容	hadoop fs -cat /sanguo/shuguo.txt
-chgrp、-chmod、-chown	Linux文件系统中的用法一样，修改文件所属权限	hadoop fs -chmod 666 /sanguo/shuguo.txt hadoop fs -chown atguigu:atguigu /sanguo/shuguo.txt
-mkdir	创建路径	hadoop fs -mkdir /jinguo
-cp	从HDFS的一个路径拷贝到HDFS的另一个路径	hadoop fs -cp /sanguo/shuguo.txt /jinguo
-mv	在HDFS目录中移动文件	hadoop fs -mv /sanguo/wuguo.txt /jinguo hadoop fs -mv /sanguo/weiguo.txt /jinguo
-tail	显示一个文件的末尾 1kb 的数据	hadoop fs -tail /jinguo/shuguo.txt
-rm	删除文件或文件夹	hadoop fs -rm /sanguo/shuguo.txt
-rm -r	递归删除目录及目录里面内容	hadoop fs -rm -r /sanguo
-du	统计文件夹的大小信息	hadoop fs -du -s -h /jinguo hadoop fs -du -h /jinguo
-setrep	设置HDFS中文件的副本数量（设置的副本数只是记录在NameNode的元数据中，是否真的会有这么多副本，还得看DataNode的数量。假如只有3台设备，最多也就3个副本，只有节点数的增加到10台时，副本数才能达到10。）	hadoop fs -setrep 10 /jinguo/shuguo.txt

4）举例说明

a. 查看文件大小

$ hadoop fs -du -s /sanguo
20  60  /sanguo
# 说明：20表示文件大小；60表示20*3个副本的总大小；/jinguo表示查看的目录

$ hadoop fs -du -h /sanguo
7  21  /sanguo/shuguo.txt
7  21  /sanguo/weiguo.txt
6  18  /sanguo/wuguo.txt

在这里插入图片描述
当文件很大时，会分多个 Block 存储：

三、HDFS的API操作

1. Windows 系统客户端环境准备

拷贝 hadoop-3.3.1 到非中文路径（比如d:\），然后配置 HADOOP_HOME=D:\hadoop-3.3.1 环境变量
配置 PATH 环境变量，添加一条：%HADOOP_HOME%\bin
下载 winutils.exe 文件，运行。下载地址：https://github.com/steveloughran/winutils

2. API 操作

1）引入依赖

<dependency>
    <groupId>org.apache.hadoop</groupId>
    <artifactId>hadoop-client</artifactId>
    <version>3.3.1</version>
</dependency>
<dependency>
    <groupId>junit</groupId>
    <artifactId>junit</artifactId>
    <version>4.12</version>
</dependency>

2）操作流程

public class HdfsClient {
    
    

    @Test
    public void testMkdirs() throws IOException, URISyntaxException, InterruptedException {
    
    

        // 1 获取文件系统，并配置参数
        Configuration configuration = new Configuration();
        configuration.set("dfs.replication", "2");
        FileSystem fs = FileSystem.get(new URI("hdfs://hadoop102:8020"), configuration, "root");

        // 2 操作HDFS
        fs.mkdirs(new Path("/xiyou/huaguoshan/"));

        // 3 关闭资源
        fs.close();
    }
}

3）参数优先级

参数优先级排序，优先级从高到低依次是：

客户端代码中设置的值

Configuration configuration = new Configuration();
//设置文件副本数
configuration.set("dfs.replication", "2");

ClassPath 下的用户自定义配置文件
然后是服务器的自定义配置（xxx-site.xml）
服务器的默认配置（xxx-default.xml）

4）常用操作API

import lombok.SneakyThrows;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.*;
import org.apache.hadoop.fs.permission.FsAction;
import org.apache.hadoop.fs.permission.FsPermission;
import org.junit.After;
import org.junit.Before;
import org.junit.Test;

import java.io.IOException;
import java.net.URI;
import java.util.Arrays;

public class HDFSClient {
    
    

    private FileSystem fs;

    @Before
    public void init() throws Exception {
    
    
        // 1 获取文件系统
        Configuration configuration = new Configuration();
        configuration.set("dfs.replication", "2");

        fs = FileSystem.get(new URI("hdfs://hadoop102:8020"), configuration, "root");
    }

    @After
    public void close() throws IOException {
    
    
        // 3 关闭资源
        fs.close();
    }


    @Test
    @SneakyThrows
    public void testMkdir() {
    
    
        /**
         * 创建目录
         * f: 目录路径
         * permission: 权限
         */
        fs.mkdirs(new Path("/test"), new FsPermission(FsAction.ALL, FsAction.READ, FsAction.READ));

        /**
         * 上传文件
         * delSrc: 是否删除原文件
         * overwrite: 是否覆盖hadoop上的同名文件
         * src: 源文件路径
         * dst: hadoop上路径
         */
        fs.copyFromLocalFile(false, false, new Path("/aaa.txt"), new Path("/test/"));

        /**
         * 下载文件
         * delSrc: 是否删除原文件
         * src: 源文件路径
         * dst: hadoop上路径
         * useRawLocalFileSystem: 是否进行文件检验
         */
        fs.copyToLocalFile(false, new Path("/test"), new Path("/"), false);

        /**
         * 移动/重命名
         * src: 源文件路径
         * dst: 目标路径
         */
        fs.rename(new Path("/test/aaa.txt"), new Path("/test/bbb.txt"));

        /**
         * 删除
         * f: 路径
         * recursive: 是否递归
         */
        fs.delete(new Path("/test/aaa.txt"), true);

        /**
         * 获取文件迭代器
         * f: 路径
         * recursive: 是否递归
         */
        RemoteIterator<LocatedFileStatus> listFiles = fs.listFiles(new Path("/"), true);
        while (listFiles.hasNext()) {
    
    
            LocatedFileStatus fileStatus = listFiles.next();

            System.out.println("========" + fileStatus.getPath() + "=========");//路径
            System.out.println(fileStatus.getPermission());//权限
            System.out.println(fileStatus.getOwner());//所有者
            System.out.println(fileStatus.getGroup());//组
            System.out.println(fileStatus.getLen());//文件大小
            System.out.println(fileStatus.getModificationTime());//修改时间
            System.out.println(fileStatus.getReplication());//副本数
            System.out.println(fileStatus.getBlockSize());//Block 大小
            System.out.println(fileStatus.getPath().getName());//文件名
            BlockLocation[] blockLocations = fileStatus.getBlockLocations();// 获取块信息
            System.out.println(Arrays.toString(blockLocations));

            fileStatus.isDirectory();//判断是否是目录
            fileStatus.isFile();//判断是否是文件
        }
    }
}

四、HDFS读写数据流程

1. HDFS写数据流程

在这里插入图片描述

客户端通过 Distributed FileSystem 模块向 NameNode 请求上传文件，NameNode 检查目标文件是否已存在，父目录是否存在。
NameNode 返回是否可以上传。
客户端请求第一个 Block 上传到哪几个 DataNode 服务器上。
NameNode 返回 3 个 DataNode 节点，分别为 dn1、dn2、dn3。
客户端通过 FSDataOutputStream 模块请求 dn1 上传数据，dn1 收到请求会继续调用 dn2，然后 dn2 调用 dn3，将这个通信管道建立完成。
dn1、dn2、dn3逐级应答客户端
客户端开始往 dn1 上传第一个 Block（先从磁盘读取数据放到一个本地内存缓存），以 Packet（由多个 chunk 组成）为单位，dn1收到一个 Packet 就会传给dn2，dn2 传给 dn3；dn1 每传一个 packet 会放入一个应答队列等待应答。
当一个 Block 传输完成之后，客户端再次请求 NameNode 上传第二个 Block 的服务器。（重复执行3-7步）。

2. 网络拓扑-节点距离计算

在HDFS写数据的过程中，NameNode 会选择距离待上传数据最近距离的 DataNode 接收数据。那么这个最近距离怎么计算呢？

节点距离：两个节点到达最近的共同祖先的距离总和。

例如，假设有数据中心d1机架r1中的节点n1。该节点可以表示为 /d1/r1/n1。利用这种标记，这里给出四种距离描述。
在这里插入图片描述

3. 机架感知（副本存储节点选择）

第一个副本在 Client 所处的节点上。如果客户端在集群外，随机选一个。
第二个副本在另一个机架的随机一个节点
第三个副本在第二个副本所在机架的随机节点

源码说明：Hadoop 源码中 BlockPlacementPolicyDefault.chooseTargetInOrder() 方法

4. HDFS读数据流程

在这里插入图片描述

客户端通过 DistributedFileSystem 向 NameNode 请求下载文件，NameNode 通过查询元数据，找到文件块所在的 DataNode 地址。
挑选一台 DataNode（就近原则，然后随机）服务器，请求读取数据。
DataNode 开始传输数据给客户端（从磁盘里面读取数据输入流，以 Packet 为单位来做校验）。
客户端以 Packet 为单位接收，先在本地缓存，然后写入目标文件。

五、NameNode和SecondaryNameNode

1. NN 和 2NN 工作机制

思考：NameNode中的元数据是存储在哪里的？
首先，我们做个假设，如果存储在NameNode节点的磁盘中，因为经常需要进行随机访问，还有响应客户请求，必然是效率过低。因此，元数据需要存放在内存中。但如果只存在内存中，一旦断电，元数据丢失，整个集群就无法工作了。因此产生在磁盘中备份元数据的FsImage。
这样又会带来新的问题，当在内存中的元数据更新时，如果同时更新FsImage，就会导致效率过低，但如果不更新，就会发生一致性问题，一旦NameNode节点断电，就会产生数据丢失。因此，引入Edits文件（只进行追加操作，效率很高）。每当元数据有更新或者添加元数据时，修改内存中的元数据并追加到Edits中。这样，一旦 NameNode 节点断电，可以通过FsImage和Edits的合并，合成元数据。
但是，如果长时间添加数据到Edits中，会导致该文件数据过大，效率降低，而且一旦断电，恢复元数据需要的时间过长。因此，需要定期进行 FsImage 和 Edits 的合并，如果这个操作由 NameNode 节点完成，又会效率过低。因此，引入一个新的节点SecondaryNamenode，专门用于 FsImage 和 Edits 的合并。

在这里插入图片描述

1）第一阶段：NameNode 启动

第一次启动 NameNode 格式化后，创建 Fsimage 和 Edits 文件。如果不是第一次启动，直接加载镜像文件和编辑文件到内存。
客户端对元数据进行增删改的请求。
NameNode 记录操作日志，更新滚动日志。
NameNode 在内存中对元数据进行增删改。

2）第二阶段：Secondary NameNode 工作

Secondary NameNode 询问 NameNode 是否需要 CheckPoint。直接带回 NameNode 是否检查结果。
Secondary NameNode 请求执行 CheckPoint。
NameNode 滚动正在写的 Edits 日志。将原来的 edits_inprogress_001 更名为 edits_001，新的操作日志会记录到 edits_inprogress_002 文件中
将滚动前的编辑日志和镜像文件拷贝到 Secondary NameNode。
Secondary NameNode 加载编辑日志和镜像文件到内存，并合并。
生成新的镜像文件 fsimage.chkpoint。
拷贝 fsimage.chkpoint 到 NameNode。
NameNode 将 fsimage.chkpoint 重新命名成 fsimage。

2. Fsimage和Edits解析

NameNode 被格式化之后，将在 $HADOOP_HOME/data/dfs/name/current/ （data 目录为配置文件 $HADOOP_HOME/etc/hadoop/core-side.xml 文件中参数 hadoop.tmp.dir 配置的目录）目录中产生如下文件

-rw-r--r--. 1 root root      42 10月 26 19:55 edits_0000000000000000399-0000000000000000400
-rw-r--r--. 1 root root      42 10月 26 20:55 edits_0000000000000000401-0000000000000000402
-rw-r--r--. 1 root root 1048576 10月 26 20:55 edits_inprogress_0000000000000000403
-rw-r--r--. 1 root root    3627 10月 26 19:55 fsimage_0000000000000000400
-rw-r--r--. 1 root root      62 10月 26 19:55 fsimage_0000000000000000400.md5
-rw-r--r--. 1 root root    3627 10月 26 20:55 fsimage_0000000000000000402
-rw-r--r--. 1 root root      62 10月 26 20:55 fsimage_0000000000000000402.md5
-rw-r--r--. 1 root root       4 10月 26 20:55 seen_txid
-rw-r--r--. 1 root root     216 10月 24 15:25 VERSION

Fsimage 文件：HDFS 文件系统元数据的一个永久性的检查点，其中包含 HDFS 文件系统的所有目录和文件 inode 的序列化信息。
Edits 文件：存放 HDFS 文件系统的所有更新操作的路径，文件系统客户端执行的所有写操作首先会被记录到 Edits 文件中。
seen_txid 文件：保存的是一个数字，就是最后一个edits_ 的数字，上面的例子中保存的是 403
VERSION 文件：保存了集群的信息，nn 和 2nn 中保存的数据相同
每次 NameNode 启动的时候都会将 Fsimage 文件读入内存，加载 Edits 里面的更新操作，保证内存中的元数据信息是最新的、同步的，可以看成 NameNode 启动的时候就将 Fsimage 和 Edits 文件进行了合并。

1）oiv查看Fsimage文件

基本语法：

hdfs oiv -p 文件类型 -i 镜像文件 -o 转换后文件输出路径

举例：

$ pwd
/usr/local/hadoop-3.3.1/data/dfs/name/current
$ hdfs oiv -p XML -i fsimage_0000000000000000404 -o fsimage.xml
$ fsimage.xml

2）oev查看Edits文件

基本语法：

hdfs oev -p 文件类型 -i 编辑日志 -o 转换后文件输出路径

案例：

$ hdfs oev -p XML -i edits_0000000000000000403-0000000000000000404 -o edits.xml
$ cat edits.xml

3. SecondaryNameNode 设置

通常情况下，SecondaryNameNode 每隔一小时执行一次同步。

<!--hdfs-default.xml-->
<property>
	<name>dfs.namenode.checkpoint.period</name>
	<value>3600s</value>
</property>

一分钟检查一次操作次数，当操作次数达到1百万时，SecondaryNameNode 执行一次同步。

<!--hdfs-default.xml-->
<property>
	<name>dfs.namenode.checkpoint.txns</name>
	<value>1000000</value>
	<description>操作动作次数</description>
</property>

<property>
 	<name>dfs.namenode.checkpoint.check.period</name>
 	<value>60s</value>
	<description> 1分钟检查一次操作次数</description>
</property>

六、DataNode

1. DataNode工作机制

在这里插入图片描述

一个数据块在 DataNode 上以文件形式存储在磁盘上，包括两个文件，一个是数据本身，一个是元数据包括数据块的长度、块数据的校验和以及时间戳。

DataNode 启动后向 NameNode 注册，通过后，周期性（6小时）的向 NameNode 上报所有的块信息。
DN 向 NN 汇报当前解读信息的时间间隔，默认6小时；

<property>
	<name>dfs.blockreport.intervalMsec</name>
	<value>21600000</value>
	<description>Determines block reporting interval in milliseconds.</description>
</property>

DN 扫描自己节点块信息列表的时间，默认6小时

<property>
	<name>dfs.datanode.directoryscan.interval</name>
	<value>21600s</value>
	<description>Interval in seconds for Datanode to scan data directories and reconcile the difference between blocks in memory and on the disk.
	Support multiple time unit suffix(case insensitive), as described
	in dfs.heartbeat.interval.
	</description>
</property>

心跳是每3秒一次，心跳返回结果带有 NameNode 给该 DataNode 的命令如复制块数据到另一台机器，或删除某个数据块。如果超过10分钟没有收到某个 DataNode 的心跳，则认为该节点不可用。（详见6.3）
集群运行中可以安全加入和退出一些机器。

2. 数据完整性

在这里插入图片描述

当 DataNode 读取 Block 的时候，它会计算 CheckSum。
如果计算后的 CheckSum，与 Block 创建时值不一样，说明 Block 已经损坏。
Client 读取其他 DataNode 上的 Block。
常见的校验算法 crc（32），md5（128），sha1（160）
DataNode 在其文件创建后周期验证 CheckSum。

crc 循环冗余校验在线网址：http://www.ip33.com/crc.html

3. 掉线时限参数设置

DataNode 进程死亡或者网络故障造成 DataNode 无法与 NameNode 通信
NameNode 不会立即把该节点判定为死亡，要经过一段时间，这段时间暂称作超时时长。
HDFS 默认的超时时长为 10分钟 + 30秒

如果定义超时时间为 TimeOut，则超时时长的计算公式为：

TimeOut = 2 * dfs.namenode.heartbeat.recheck-interval + 10 * dfs.heartbeat.interval

默认的 dfs.namenode.heartbeat.recheck-interval 大小为5分钟，dfs.heartbeat.interval 默认为3秒。需要注意的是 hdfs-site.xml 配置文件中的 heartbeat.recheck.interval 的单位为毫秒，dfs.heartbeat.interval 的单位为秒。

<property>
    <name>dfs.namenode.heartbeat.recheck-interval</name>
    <value>300000</value>
</property>

<property>
    <name>dfs.heartbeat.interval</name>
    <value>3</value>
</property>

七、HDFS 核心参数配置

1. NameNode 内存配置

NameNode 内存计算
每个文件块大概占用 150byte，一台服务器 128G 内存为例，能存储多少文件块呢？
128 * 1024 * 1024 * 1024 / 150Byte ≈ 9.1亿
Hadoop2.x 系列，配置 NameNode 内存
NameNode 内存默认 2000m，如果服务器内存 4G，NameNode 内存可以配置 3g。在 hadoop-env.sh 文件中配置如下。
```
HADOOP_NAMENODE_OPTS=-Xmx3072m
```

Hadoop3.x 系列，配置 NameNode 内存
（1）hadoop-env.sh 中描述 Hadoop 的内存是动态分配的

# The maximum amount of heap to use (Java -Xmx).  If no unit
# is provided, it will be converted to MB.  Daemons will
# prefer any Xmx setting in their respective _OPT variable.
# There is no default; the JVM will autoscale based upon machine
# memory size.
# export HADOOP_HEAPSIZE_MAX=

# The minimum amount of heap to use (Java -Xms).  If no unit
# is provided, it will be converted to MB.  Daemons will
# prefer any Xms setting in their respective _OPT variable.
# There is no default; the JVM will autoscale based upon machine
# memory size.
# export HADOOP_HEAPSIZE_MIN=
HADOOP_NAMENODE_OPTS=-Xmx102400m

（2）查看 NameNode 与 DataNode 占用内存

$ jps
1670 NameNode
2454 Jps
2346 JobHistoryServer
2156 NodeManager
1853 DataNode

# 查看NameNode
$ jmap -heap 1670
Heap Configuration:
   MaxHeapSize              = 482344960 (460.0MB)
   
# 查看DataNode
$ jmap -heap 1853
Heap Configuration:
   MaxHeapSize              = 482344960 (460.0MB)

查看发现 hadoop102 上的 NameNode 和 DataNode 占用内存都是自动分配的，且相等。不是很合理。经验参考：
https://docs.cloudera.com/documentation/enterprise/6/release-notes/topics/rg_hardware_requirements.html#concept_fzz_dq4_gbb

组件	内存
NameNode	最低：1 GB（用于概念验证部署）每增加1000000个数据块，再增加1 GB，快照和加密可以增加所需的堆内存。
DataNode	最低：4 GB 增加内存以获得更高的副本计数或每个数据节点的更高块数。在增加内存时，Cloudera 建议 DataNodes 上每100万个副本（超过400万个）增加 1 GB 内存。例如，500万个副本需要5 GB的内存。

具体修改：hadoop-env.sh：

export HDFS_NAMENODE_OPTS="-Dhadoop.security.logger=INFO,RFAS -Xmx1024m"
export HDFS_DATANODE_OPTS="-Dhadoop.security.logger=ERROR,RFAS -Xmx4096m"

2. NameNode心跳并发配置

在这里插入图片描述

hdfs-site.xml

The number of Namenode RPC server threads that listen to requests from clients. If dfs.namenode.servicerpc-address
is not configured then Namenode RPC server threads listen to requests from all nodes.
NameNode有一个工作线程池，用来处理不同DataNode的并发心跳以及客户端并发的元数据操作。
对于大集群或者有大量客户端的集群来说，通常需要增大该参数。默认值是10。
<property>
    <name>dfs.namenode.handler.count</name>
    <value>21</value>
</property>

企业经验：
$dfs.namenode.handler.count = 20×log_e^{(Cluster Size)}$
例如：集群规模（DataNode台数）为 3 台时，此参数设置为21。可通过简单的 python 代码计算该值，代码如下。

$ sudo yum install -y python
$ python
Python 2.7.5 (default, Apr  2 2020, 13:16:51)
[GCC 4.8.5 20150623 (Red Hat 4.8.5-39)] on linux2
Type "help", "copyright", "credits" or "license" for more information.
>>> import math
>>> print int(20*math.log(3))
21
>>> quit()

3. 开启回收站配置

开启回收站功能，可以将删除的文件在不超时的情况下，恢复原数据，起到防止误删除、备份等作用。

回收站工作机制
开启回收站功能参数说明
（1）默认值 fs.trash.interval = 0，0 表示禁用回收站；其他值表示设置文件的存活时间。
（2）默认值 fs.trash.checkpoint.interval = 0，检查回收站的间隔时间。如果该值为0，则该值设置和 fs.trash.interval 的参数值相等。
（3）要求 fs.trash.checkpoint.interval <= fs.trash.interval。

启用回收站

修改 core-site.xml，配置垃圾回收时间为1分钟。

<property>
    <name>fs.trash.interval</name>
    <value>1</value>
</property>

查看回收站：回收站目录在 HDFS 集群中的路径：/user/atguigu/.Trash/...
注意：通过网页上直接删除的文件也不会走回收站。
通过程序删除的文件不会经过回收站，需要调用 moveToTrash() 才进入回收站
```
Trash trash = New Trash(conf);
trash.moveToTrash(path);
```

只有在命令行利用 hadoop fs -rm 命令删除的文件才会走回收站。

$ hadoop fs -rm -r /output
2021-11-15 17:22:34,599 INFO fs.TrashPolicyDefault: Moved: 'hdfs://hadoop102:8020/output' to trash at: hdfs://hadoop102:8020/user/root/.Trash/Current/output

恢复回收站数据：使用 hadoop fs -mv 命令将文件移动到原路径

八、HDFS—集群压测

在这里插入图片描述
HDFS 的读写性能主要受网络和磁盘影响比较大。

1. 测试HDFS写性能

（1）原理

在这里插入图片描述

（2）测试

虚拟机配置：2 核 2 G ，网速 100 mbps （100 / 8 = 12.5 MB/s）

# nrFiles n为生成 mapTask 的数量，生产环境一般可通过 ResourceManger:8088 查看CPU核数，设置为（CPU核数-1）
$ hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-3.3.1-tests.jar TestDFSIO -write -nrFiles 10 -fileSize 128MB
2021-11-15 17:47:14,463 INFO fs.TestDFSIO: ----- TestDFSIO ----- : write
2021-11-15 17:47:14,463 INFO fs.TestDFSIO:             Date & time: Mon Nov 15 17:47:14 CST 2021
2021-11-15 17:47:14,463 INFO fs.TestDFSIO:         Number of files: 10
2021-11-15 17:47:14,463 INFO fs.TestDFSIO:  Total MBytes processed: 1280
2021-11-15 17:47:14,463 INFO fs.TestDFSIO:       Throughput mb/sec: 1.32
2021-11-15 17:47:14,463 INFO fs.TestDFSIO:  Average IO rate mb/sec: 1.34
2021-11-15 17:47:14,463 INFO fs.TestDFSIO:   IO rate std deviation: 0.16
2021-11-15 17:47:14,463 INFO fs.TestDFSIO:      Test exec time sec: 128.24

Number of files：生成 mapTask 数量，一般是集群中（CPU核数-1）
Total MBytes processed：单个 map 处理的文件大小
Throughput mb/sec：单个 mapTask 的吞吐量
计算方式：处理的总文件大小/每一个mapTask写数据的时间累加
集群整体吞吐量：生成mapTask数量 * 单个mapTask的吞吐量
Average IO rate mb/sec：平均 mapTask 的吞吐量
计算方式：每个mapTask处理文件大小/每一个mapTask写数据的时间，全部相加除以mapTask数量
IO rate std deviation：方差、反映各个 mapTask 处理的差值，越小越均衡

注意：如果测试过程中，出现异常，可以在 yarn-site.xml 中设置虚拟内存检测为 false

<!--是否启动一个线程检查每个任务正使用的虚拟内存量，如果任务超出分配值，则直接将其杀掉，默认是true -->
<property>
     <name>yarn.nodemanager.vmem-check-enabled</name>
     <value>false</value>
</property>

（3）结果分析

由于副本1就在本地，所以该副本不参与测试

一共参与测试的文件：10个文件 * 2个副本 = 20个
压测后的速度：1.32
实测速度：1.32M/s * 20个文件 = 26.4M/s
三台服务器的带宽：12.5 + 12.5 + 12.5 = 37.5M/s

如果实测速度远远小于网络，并且实测速度不能满足工作需求，可以考虑采用固态硬盘或者增加磁盘个数。
如果客户端不在集群节点，那就三个副本都参与计算

2. 测试HDFS读性能

（1）测试

测试内容：读取HDFS集群10个128M的文件

$ hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-3.3.1-tests.jar TestDFSIO -read -nrFiles 10 -fileSize 128MB

2021-11-18 10:24:06,576 INFO fs.TestDFSIO: ----- TestDFSIO ----- : read
2021-11-18 10:24:06,576 INFO fs.TestDFSIO:             Date & time: Thu Nov 18 10:24:06 CST 2021
2021-11-18 10:24:06,576 INFO fs.TestDFSIO:         Number of files: 10
2021-11-18 10:24:06,576 INFO fs.TestDFSIO:  Total MBytes processed: 1280
2021-11-18 10:24:06,576 INFO fs.TestDFSIO:       Throughput mb/sec: 101.04
2021-11-18 10:24:06,576 INFO fs.TestDFSIO:  Average IO rate mb/sec: 109.51
2021-11-18 10:24:06,576 INFO fs.TestDFSIO:   IO rate std deviation: 29.81
2021-11-18 10:24:06,576 INFO fs.TestDFSIO:      Test exec time sec: 35.72

（2）测试结果分析

为什么读取文件速度大于网络带宽？

由于目前只有三台服务器，且有三个副本，数据读取就近原则，相当于都是读取的本地磁盘数据，没有走网络。

在这里插入图片描述

3. 删除测试生成数据

经过前面的读写测试，HDFS 中会产生一些临时文件，临时文件所在目录会在日志中打印出来，默认：

2021-11-18 10:23:29,447 INFO fs.TestDFSIO: baseDir = /benchmarks/TestDFSIO

除测试生成数据：

$ hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-3.3.1-tests.jar TestDFSIO -clean

九、多目录

1. NameNode多目录配置

NameNode 的本地目录可以配置成多个，且每个目录存放内容相同，增加了可靠性

具体配置如下：

在 hdfs-site.xml 文件中添加如下内容

<property>
     <name>dfs.namenode.name.dir</name>
     <value>file://${hadoop.tmp.dir}/dfs/name1,file://${hadoop.tmp.dir}/dfs/name2</value>
</property>

注意：根据每台服务器节点的磁盘情况不同，对每台集群进行配置

停止集群，删除集群节点的 data 和 logs 中所有数据。

格式化集群并启动。

$ bin/hdfs namenode -format
$ sbin/start-dfs.sh

查看结果：可以看到 name1 和 name2 ，并且两者中的内容一模一样。

2. DataNode多目录配置

DataNode 可以配置成多个目录，每个目录存储的数据不一样（数据不是副本）

具体配置如下：

在 hdfs-site.xml 文件中添加如下内容

<property>
     <name>dfs.datanode.data.dir</name>
     <value>file://${hadoop.tmp.dir}/dfs/data1,file://${hadoop.tmp.dir}/dfs/data2</value>
</property>

3. 集群数据均衡之磁盘间数据均衡

生产环境，由于硬盘空间不足，往往需要增加一块硬盘。刚加载的硬盘没有数据时，可以执行磁盘数据均衡命令。（Hadoop3.x新特性）

生成均衡计划（我们只有一块磁盘，不会生成计划）
```
hdfs diskbalancer -plan hadoop103
```

执行均衡计划

hdfs diskbalancer -execute hadoop103.plan.json

查看当前均衡任务的执行情况
```
hdfs diskbalancer -query hadoop103
```

取消均衡任务

hdfs diskbalancer -cancel hadoop103.plan.json

十、集群扩容及缩容

1. 添加白名单

白名单：表示在白名单的主机IP地址可以用来存储数据。配置白名单，可以尽量防止黑客恶意访问攻击。

配置白名单步骤如下：

在 NameNode 节点的 $HADOOP_HOME/etc/hadoop 目录下分别创建 whitelist 和 blacklist 文件
```
$ vim whitelist 
hadoop102
hadoop103
```

在 hdfs-site.xml 配置文件中增加 dfs.hosts 配置参数

<!-- 白名单 -->
<property>
     <name>dfs.hosts</name>
     <value>/usr/local/hadoop-3.3.1/etc/hadoop/whitelist</value>
</property>

分发配置文件 whitelist，hdfs-site.xml 到集群中所有机器，第一次配置完 hdfs-site.xml 文件后要重启集群，之后只修改 whitelist 文件的话，只需要刷新 NameNode 节点即可：
```
# 刷新节点命令
hdfs dfsadmin -refreshNode
```

2. 服役新服务器

随着公司业务的增长，数据量越来越大，原有的数据节点的容量已经不能满足存储数据的需求，需要在原有集群基础上动态添加新的数据节点。

添加新节点步骤：

将集群的 Hadoop，jdk，配置文件等分发到新的机器上

直接在新机器上启动 DataNode，即可关联到集群

$ hdfs --daemon start datanode
$ yarn --daemon start nodemanager

3. 服务器间数据均衡

在企业开发中，如果经常在 A 和 B 节点上提交任务，且副本数为 2，由于数据本地性原则，就会导致 A 和 B 节点数据过多，C 节点存储的数据量小。
另一种情况，就是新服役的服务器数据量比较少，需要执行集群均衡命令，使得集群各节点数据量相差不大

开启数据均衡命令：

$ sbin/start-balancer.sh -threshold 10

参数10，代表的是集群中各个节点的磁盘空间利用率相差不超过10%，可根据实际情况进行调整。

停止数据均衡命令：

$ sbin/stop-balancer.sh

注意：由于 HDFS 需要启动单独的 Rebalance Server 来执行 Rebalance 操作，所以尽量不要在 NameNode 上执行 start-balancer.sh，而是找一台比较空闲的机器。

4. 黑名单退役服务器

黑名单：表示在黑名单的主机IP地址不可以用来存储数据。配置黑名单，用来退役服务器。

黑名单配置步骤如下：

在 NameNode 节点的 $HADOOP_HOME/etc/hadoop 目录下分别创建 blacklist 文件，并添加要退役的节点的地址
```
$ vim blacklist
hadoop105
```

在 hdfs-site.xml 配置文件中增加 dfs.hosts.exclude 配置参数

<!-- 黑名单 -->
<property>
     <name>dfs.hosts.exclude</name>
     <value>/usr/local/hadoop-3.3.1/etc/hadoop/blacklist</value>
</property>

分发配置文件 blacklist，hdfs-site.xml 到集群中所有机器，第一次配置完 hdfs-site.xml 文件后要重启集群，之后只修改 blacklist 文件的话，只需要刷新 NameNode 节点即可：
```
# 刷新节点命令
hdfs dfsadmin -refreshNode
```
检查Web浏览器，退役节点的状态为 decommission in progress（退役中），说明该数据节点正在复制块到其他节点
等待退役节点状态为 decommissioned（所有块已经复制完成），停止该节点及节点资源管理器。注意：如果副本数是3，服役的节点小于等于3，是不能退役成功的，需要修改副本数后才能退役
```
$ hdfs --daemon stop datanode
$ yarn --daemon stop nodemanager
```
如果数据不均衡，可以用命令实现集群的再平衡
```
$ sbin/start-balancer.sh -threshold 10
```

十一、存储优化

1. 纠删码

1）纠删码原理

HDFS 默认情况下，一个文件有3个副本，这样提高了数据的可靠性，但也带来了2倍的冗余开销。Hadoop3.x 引入了纠删码，采用计算的方式，可以节省约50％左右的存储空间。

如图，将一个 300M 的文件拆分成 3 个 100M 的数据单元和 2 个 100M 的校验单元，5个单元任意两个单元损坏，都可以通过其它 3 个单元计算出来，且总的存储空间由原来的 900M 缩小到了 500M。但是计算过程必然会使 cpu 性能下降，因此纠删码就是拿性能换存储空间

在这里插入图片描述

2）纠删码策略

# 查看可用的纠删码策略，State 为 ENABLED 表示已经开启
$ hdfs ec -listPolicies
Erasure Coding Policies:
ErasureCodingPolicy=[Name=RS-10-4-1024k, Schema=[ECSchema=[Codec=rs, numDataUnits=10, numParityUnits=4]], CellSize=1048576, Id=5], State=DISABLED
ErasureCodingPolicy=[Name=RS-3-2-1024k, Schema=[ECSchema=[Codec=rs, numDataUnits=3, numParityUnits=2]], CellSize=1048576, Id=2], State=DISABLED
ErasureCodingPolicy=[Name=RS-6-3-1024k, Schema=[ECSchema=[Codec=rs, numDataUnits=6, numParityUnits=3]], CellSize=1048576, Id=1], State=ENABLED
ErasureCodingPolicy=[Name=RS-LEGACY-6-3-1024k, Schema=[ECSchema=[Codec=rs-legacy, numDataUnits=6, numParityUnits=3]], CellSize=1048576, Id=3], State=DISABLED
ErasureCodingPolicy=[Name=XOR-2-1-1024k, Schema=[ECSchema=[Codec=xor, numDataUnits=2, numParityUnits=1]], CellSize=1048576, Id=4], State=DISABLED

RS-10-4-1024k：使用 RS 编码，每 10 个数据单元（cell），生成4个校验单元，共14个单元，也就是说：这14个单元中，只要有任意的10个单元存在（不管是数据单元还是校验单元，只要总数=10），就可以得到原始数据。每个单元的大小是 1024k=1024*1024=1048576。
RS-3-2-1024k：使用RS编码，每3个数据单元，生成2个校验单元，共5个单元，也就是说：这5个单元中，只要有任意的3个单元存在（不管是数据单元还是校验单元，只要总数=3），就可以得到原始数据。每个单元的大小是 1024k=1024*1024=1048576。
RS-6-3-1024k（默认）：使用RS编码，每6个数据单元，生成3个校验单元，共9个单元，也就是说：这9个单元中，只要有任意的6个单元存在（不管是数据单元还是校验单元，只要总数=6），就可以得到原始数据。每个单元的大小是1024k=1024*1024=1048576。
XOR-2-1-1024k：使用XOR编码（速度比RS编码快），每2个数据单元，生成1个校验单元，共3个单元，也就是说：这3个单元中，只要有任意的2个单元存在（不管是数据单元还是校验单元，只要总数= 2），就可以得到原始数据。每个单元的大小是1024k=1024*1024=1048576。
RS-LEGACY-6-3-1024k：策略和上面的RS-6-3-1024k一样，只是编码的算法用的是 rs-legacy。

3）案例：将/input目录设置为RS-3-2-1024k策略

纠删码策略是给具体一个路径设置。所有往此路径下存储的文件，都会执行此策略。默认只开启对 RS-6-3-1024k 策略的支持，如要使用别的策略需要提前启用。

开启对RS-3-2-1024k策略的支持

$  hdfs ec -enablePolicy -policy RS-3-2-1024k

在HDFS创建目录，并设置RS-3-2-1024k策略

$ hdfs dfs -mkdir /input
$ hdfs ec -setPolicy -path /input -policy RS-3-2-1024k

上传文件，并查看文件编码后的存储情况
```
$ hdfs dfs -put web.log /input
```
注意：你所上传的文件需要大于 2M 才能看出效果（低于2M，只有一个数据单元和两个校验单元）

2. 异构存储（冷热数据分离）

异构存储主要解决，不同的数据，存储在不同类型的硬盘中，达到最佳性能的问题。

1）存储类型与存储策略

存储类型由快到慢如下：

RAM_ DISK： (内存镜像文件系统)
SSD： (SSD固态硬盘)
DISK：(普通磁盘，在HDFS中，如果没有主动声明数据目录存储类型默认都是 DISK)
ARCHIVE：(没有特指哪种存储介质，主要的指的是计算能力比较弱而存储密度比较高的存储介质，用来解决数据量的
容量扩增的问题，一般用于归档)

存储策略，设备的访问速度从快到慢如下：

策略ID	策略名称	副本分布	说明
15	Lazy_Persist	RAM_DISK：1，DISK：n-1	一个副本保存在内存RAM_DISK中，其余副本保存在磁盘中。
12	All_SSD	SSD：n	所有副本都保存在SSD中。
10	One_SSD	SSD：1 , DISK：n-1	一个副本保存在SSD中，其余副本保存在磁盘中。
7	Hot(default)	DISK：n	Hot：所有副本保存在磁盘中，这也是默认的存储策略。
5	Warm	DSIK：1 , ARCHIVE：n-1	一个副本保存在磁盘上，其余副本保存在归档存储上。
2	Cold	ARCHIVE：n	所有副本都保存在归档存储上。

2）异构存储Shell操作

查看当前有哪些存储策略可以用
```
hdfs storagepolicies -listPolicies
```
为指定路径（数据存储目录）设置指定的存储策略
```
hdfs storagepolicies -setStoragePolicy -path xxx -policy xxx
```
获取指定路径（数据存储目录或文件）的存储策略
```
hdfs storagepolicies -getStoragePolicy -path xxx
```
取消存储策略；执行改命令之后该目录或者文件，以其上级的目录为准，如果是根目录，那么就是HOT
```
hdfs storagepolicies -unsetStoragePolicy -path xxx
```

查看文件块的分布

hdfs fsck xxx -files -blocks -locations

查看集群节点
```
hadoop dfsadmin -report
```

3）案例：ALL_SSD存储策略

配置虚拟机节点：hdfs-site.xml 添加如下信息，其中配置了两个目录的存储类型（其它存储类型配置相同，每个节点可以不相同）

<property>
	<name>dfs.replication</name>
	<value>2</value>
</property>
<property>
	<name>dfs.storage.policy.enabled</name>
	<value>true</value>
</property>
<property>
	<name>dfs.datanode.data.dir</name>
	<value>[SSD]file:///usr/local/hadoop-3.3.1/hdfsdata/ssd,[DISK]file:///usr/local/hadoop-3.3.1/hdfsdata/disk</value>
</property>

创建目录，上传文件，并将该目录的存储策略指定为 ALL_SSD

$ hadoop fs -mkdir /hdfsdata
$ hadoop fs -put /tmp/NOTICE.txt /hdfsdata
$ hdfs storagepolicies -setStoragePolicy -path /hdfsdata -policy All_SSD

让 HDFS 按照存储策略自行移动文件块
```
$ hdfs mover /hdfsdata
```

查看文件块分布，我们可以看到，所有的文件块都存储在SSD，符合All_SSD存储策略。

$ bin/hdfs fsck /hdfsdata -files -blocks -locations

[DatanodeInfoWithStorage[192.168.10.102:9866,DS-c997cfb4-16dc-4e69-a0c4-9411a1b0c1eb,SSD], DatanodeInfoWithStorage[192.168.10.103:9866,DS-2481a204-59dd-46c0-9f87-ec4647ad429a,SSD]]

4）策略配置注意

当我们将目录设置为 COLD 并且我们未配置 ARCHIVE 存储目录的情况下，不可以向该目录直接上传文件，会报出异常。
存储策略为 LAZY_PERSIST 时，可能会出现所有的文件块都是存储在 DISK。按照理论一个副本存储在 RAM_DISK，其他副本存储在 DISK 中，可能有以下两个原因：
1. 当客户端所在的 DataNode 节点没有 RAM_DISK 时，则会写入客户端所在的 DataNode 节点的 DISK 磁盘，其余副本会写入其他节点的DISK磁盘。
2. 当客户端所在的 DataNode 有 RAM_DISK，但 dfs.datanode.max.locked.memory 参数值未设置（默认0）或者设置过小（小于 dfs.block.size 参数值）时，则会写入客户端所在的DataNode节点的DISK磁盘，其余副本会写入其他节点的DISK磁盘。
  但是由于虚拟机的 max locked memory 为 64KB，所以，如果参数配置过大，还会报出错误：
```
ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: Exception in secureMain
java.lang.RuntimeException: Cannot start datanode because the configured max locked memory size (dfs.datanode.max.locked.memory) of 209715200 bytes is more than the datanode's available RLIMIT_MEMLOCK ulimit of 65536 bytes.
```
  我们可以通过该命令查询此参数的内存
```
$ ulimit -a

max locked memory       (kbytes, -l) 64
```

十二、HDFS—故障排除

1. NameNode数据丢失

在这里插入图片描述

NameNode 进程挂了并且存储的数据也丢失了，如何恢复 NameNode

拷贝 SecondaryNameNode 中数据到原 NameNode 存储数据目录

$ scp -r atguigu@hadoop104:$HADOOP_HOME/data/dfs/namesecondary/* $HADOOP_HOME/data/dfs/name/

重新启动NameNode
```
$ hdfs --daemon start namenode
```

2. 集群安全模式&磁盘修复

安全模式：文件系统只接受读数据请求，而不接受删除、修改等变更请求

1）进入安全模式场景

NameNode 在加载镜像文件和编辑日志期间处于安全模式；
NameNode 在接收 DataNode 注册时，处于安全模式

在这里插入图片描述

2）退出安全模式条件

dfs.namenode.safemode.min.datanodes：最小可用 datanode 数量，默认 0；大于 0，即必须有一个可用
dfs.namenode.safemode.threshold-pct：副本数达到最小要求的 block 占系统总 block 数的百分比，默认0.999f。（只允许丢一个块）
dfs.namenode.safemode.extension：稳定时间，默认值 30000 毫秒，即30秒

3）基本语法

集群处于安全模式，不能执行重要操作（写操作）。集群启动完成后，自动退出安全模式。

hdfs dfsadmin -safemode get	（功能描述：查看安全模式状态）
hdfs dfsadmin -safemode enter （功能描述：进入安全模式状态）
hdfs dfsadmin -safemode leave	（功能描述：离开安全模式状态）
hdfs dfsadmin -safemode wait	（功能描述：等待安全模式状态）

4）案例1：启动集群进入安全模式

集群重启后，可以看到集群处于安全模式，此时的安全模式会在 30s 后自动退出
在这里插入图片描述

5）案例2：DataNode Block 损坏而进行安全模式

在这里插入图片描述
说明：安全模式已经打开，块的数量没有达到要求。

离开安全模式

$ hdfs dfsadmin -safemode get
Safe mode is ON
$ hdfs dfsadmin -safemode leave
Safe mode is OFF

观察 http://hadoop102:9870/dfshealth.html#tab-overview
将对应的元数据删除，集群便可恢复正常

6）案例3：等待安全模式

编写一个脚本：

$ vim safemode.sh

#!/bin/bash
# 当集群处于安全模式时，执行这条命令时会阻塞，直到集群退出安全模式
hdfs dfsadmin -safemode wait
hdfs dfs -put /opt/module/hadoop-3.1.3/README.txt /

3. 慢磁盘监控

“慢磁盘”指的时写入数据非常慢的一类磁盘。其实慢性磁盘并不少见，当机器运行时间长了，上面跑的任务多了，磁盘的读写性能自然会退化，严重时就会出现写入数据延时的问题。

如何发现慢磁盘？

正常在HDFS上创建一个目录，只需要不到1s的时间。如果你发现创建目录超过1分钟及以上，而且这个现象并不是每次都有。只是偶尔慢了一下，就很有可能存在慢磁盘。

可以采用如下方法找出是哪块磁盘慢：

1）通过心跳未联系时间。

一般出现慢磁盘现象，会影响到 DataNode 与 NameNode 之间的心跳。正常情况心跳时间间隔是 3s。超过3s说明有异常。

2）fio 命令，测试磁盘的读写性能

顺序读测试

$ sudo yum install -y fio
$ sudo fio -filename=/tmp/test.log -direct=1 -iodepth 1 -thread -rw=read -ioengine=psync -bs=16k -size=2G -numjobs=10 -runtime=60 -group_reporting -name=test_r

Run status group 0 (all jobs):
   READ: bw=803MiB/s (842MB/s), 803MiB/s-803MiB/s (842MB/s-842MB/s), io=20.0GiB (21.5GB), run=25518-25518msec

结果显示，磁盘的总体顺序读速度为803MiB/s。

顺序写测试

$ sudo fio -filename=/tmp/test.log -direct=1 -iodepth 1 -thread -rw=write -ioengine=psync -bs=16k -size=2G -numjobs=10 -runtime=60 -group_reporting -name=test_w

Run status group 0 (all jobs):
  WRITE: bw=1321MiB/s (1385MB/s), 1321MiB/s-1321MiB/s (1385MB/s-1385MB/s), io=20.0GiB (21.5GB), run=15502-15502msec

结果显示，磁盘的总体顺序写速度为1321MiB/s。

随机写测试

$ sudo fio -filename=/tmp/test.log -direct=1 -iodepth 1 -thread -rw=randwrite -ioengine=psync -bs=16k -size=2G -numjobs=10 -runtime=60 -group_reporting -name=test_randw

Run status group 0 (all jobs):
  WRITE: bw=1339MiB/s (1404MB/s), 1339MiB/s-1339MiB/s (1404MB/s-1404MB/s), io=20.0GiB (21.5GB), run=15297-15297msec

结果显示，磁盘的总体随机写速度为1339MiB/s。

混合随机读写：

$ sudo fio -filename=/tmp/test.log -direct=1 -iodepth 1 -thread -rw=randrw -rwmixread=70 -ioengine=psync -bs=16k -size=2G -numjobs=10 -runtime=60 -group_reporting -name=test_r_w -ioscheduler=noop

Run status group 0 (all jobs):
   READ: bw=965MiB/s (1012MB/s), 965MiB/s-965MiB/s (1012MB/s-1012MB/s), io=13.0GiB (15.0GB), run=14851-14851msec
  WRITE: bw=414MiB/s (434MB/s), 414MiB/s-414MiB/s (434MB/s-434MB/s), io=6149MiB (6447MB), run=14851-14851msec

结果显示，磁盘的总体混合随机读写，读速度为965MiB/s，写速度414MiB/s。

4. 小文件归档

1）HDFS存储小文件弊端

在这里插入图片描述

每个文件均按块存储，每个块的元数据存储在NameNode的内存中，因此HDFS存储小文件会非常低效。因为大量的小文件会耗尽NameNode中的大部分内存。但注意，存储小文件所需要的磁盘容量和数据块的大小无关。例如，一个1MB的文件设置为128MB的块存储，实际使用的是1MB的磁盘空间，而不是128MB。

2）将小文件归档来存储小文件

HDFS 存档文件或 HAR 文件，是一个更高效的文件存档工具，它将文件存入 HDFS 块，在减少 NameNode 内存使用的同时，允许对文件进行透明的访问。具体说来，HDFS 存档文件对内还是一个一个独立文件，对 NameNode 而言却是一个整体，减少了 NameNode 的内存。

3）案例实操

归档文件：把 /input 目录里面的所有文件归档成一个叫 input.har 的归档文件，并把归档后文件存储到 /output 路径下。
```
$ hadoop archive -archiveName input.har -p /input /output
```

查看归档

$ hadoop fs -ls /output/input.har
$ hadoop fs -ls har:///output/input.har

解归档文件，将归档文件中的某个文件复制出来
```
$ hadoop fs -cp har:///output/input.har/* /
```

十三、HDFS—集群迁移

1. Apache和Apache集群间数据拷贝

scp实现两个远程主机之间的文件复制

scp -r hello.txt root@hadoop103:/tmp/hello.txt		# 推 push
scp -r root@hadoop103:/tmp/hello.txt  hello.txt		# 拉 pull
scp -r root@hadoop103:/tmp/hello.txt root@hadoop104:/tmp   #是通过本地主机中转实现两个远程主机的文件复制；如果在两个远程主机之间ssh没有配置的情况下可以使用该方式。

采用 distcp 命令实现两个 Hadoop 集群之间的递归数据复制

$ hadoop distcp hdfs://hadoop102:8020/tmp/hello.txt hdfs://hadoop105:8020/tmp/hello.txt

2. Apache和CDH集群间数据拷贝

暂时没有亲自实践过，留个文档：
https://gitee.com/xinboss/bigdata/blob/master/Hadoop/%E6%96%87%E6%A1%A3/%E5%B0%9A%E7%A1%85%E8%B0%B7%E5%A4%A7%E6%95%B0%E6%8D%AE%E6%8A%80%E6%9C%AF%E4%B9%8B%E9%9B%86%E7%BE%A4%E8%BF%81%E7%A7%BB%EF%BC%88Apache%E5%92%8CCDH%EF%BC%89.doc

Hadoop-HDFS详解

文章目录

一、HDFS概述

1. HDFS产出背景及定义

1）HDFS产生背景

2）HDFS定义

2. HDFS优缺点

1）HDFS优点

2）HDFS缺点

3. HDFS组成架构

4. HDFS文件块大小

二、HDFS的shell操作

1. 基本语法

2. 命令大全

1）上传

2）下载

3）HDFS直接操作

4）举例说明

a. 查看文件大小

三、HDFS的API操作

1. Windows 系统客户端环境准备

2. API 操作

1）引入依赖

2）操作流程

3）参数优先级

4）常用操作API

四、HDFS读写数据流程

1. HDFS写数据流程

2. 网络拓扑-节点距离计算

3. 机架感知（副本存储节点选择）

4. HDFS读数据流程

五、NameNode和SecondaryNameNode

1. NN 和 2NN 工作机制

2. Fsimage和Edits解析

1）oiv查看Fsimage文件

2）oev查看Edits文件

3. SecondaryNameNode 设置

六、DataNode

1. DataNode工作机制

2. 数据完整性

3. 掉线时限参数设置

七、HDFS 核心参数配置

1. NameNode 内存配置

2. NameNode心跳并发配置

3. 开启回收站配置

八、HDFS—集群压测

1. 测试HDFS写性能

（1）原理

（2）测试

（3）结果分析

2. 测试HDFS读性能

（1）测试

（2）测试结果分析

3. 删除测试生成数据

九、多目录

1. NameNode多目录配置

2. DataNode多目录配置

3. 集群数据均衡之磁盘间数据均衡

十、集群扩容及缩容

1. 添加白名单

2. 服役新服务器

3. 服务器间数据均衡

4. 黑名单退役服务器

十一、存储优化

1. 纠删码

1）纠删码原理

2）纠删码策略

3）案例：将/input目录设置为RS-3-2-1024k策略

2. 异构存储（冷热数据分离）

1）存储类型与存储策略

2）异构存储Shell操作

3）案例：ALL_SSD存储策略

4）策略配置注意

十二、HDFS—故障排除

1. NameNode数据丢失

2. 集群安全模式&磁盘修复

1）进入安全模式场景

2）退出安全模式条件

3）基本语法

4）案例1：启动集群进入安全模式