【Hadoop】HDFS 原理

Hadoop 的介绍如下：

Hadoop 简介

Hadoop 主要的组成部分有如下四个：

Hadoop Common：支持其他 Hadoop 模块的通用程序。
Hadoop 分布式文件系统 (HDFS)：一种分布式文件系统，可提供对应用程序数据的高吞吐量访问。
Hadoop YARN：作业调度和集群资源管理的框架。
Hadoop MapReduce：基于 YARN 的系统，用于并行处理大型数据集。

之前已经学习过 YARN 和 MapReduce：

Yarn 资源调度器
 MapReduce 原理

今天学习 HDFS。欢迎点击此处关注公众号。

1.HDFS 概念

Hadoop Distributed File System - Hadoop 分布式文件系统。

场景：适用于一次写入，多次读出，不支持修改。

优点：高容错（多个副本）、适合大数据、构建在廉价机器上。

缺点：不适合低延迟访问、不适合大量小文件（NameNode 内存限制）、不支持并发写入、不支持随机修改。

2.HDFS 数据流

2.1 写入流程

在这里插入图片描述

客户端通过 Distributed FileSystem 模块向 NameNode 请求上传文件，NameNode 检查目标文件是否已存在，父目录是否存在。
NameNode 返回是否可以上传。
客户端请求第一个 Block 上传到哪几个 DataNode 服务器上。
NameNode 返回 3 个 DataNode 节点，分别为 dn1、dn2、dn3。
客户端通过 FSDataOutputStream 模块请求 dn1 上传数据，dn1 收到请求会继续调用 dn2，然后 dn2 调用 dn3，将这个通信管道建立完成。
dn1、dn2、dn3 逐级应答客户端。
客户端开始往 dn1 上传第一个 Block（先从磁盘读取数据放到一个本地内存缓存），以 Packet 为单位，dn1 收到一个 Packet 就会传给 dn2，dn2 传给 dn3；dn1 每传一个 packet 会放入一个应答队列等待应答。
当一个 Block 传输完成之后，客户端再次请求 NameNode 上传第二个 Block 的服务器。（重复执行 3-7 步）。

2.2 副本节点选择

第一个副本在 Client 所处节点上。
第二、三个副本在另一个机架的随机节点上。

2.3 读取流程

在这里插入图片描述

客户端通过 DistributedFileSystem 向 NameNode 请求下载文件，NameNode 通过查询元数据，找到文件块所在的 DataNode 地址。
挑选一台 DataNode（就近原则，然后随机）服务器，请求读取数据。
DataNode 开始传输数据给客户端（从磁盘里面读取数据输入流，以 Packet 为单位来做校验）。
客户端以 Packet 为单位接收，先在本地缓存，然后写入目标文件。

3.NameNode 和 SecondaryNameNode

3.1 NN 和 2NN 工作机制

在这里插入图片描述

第一阶段：NameNode 启动

第一次启动 NameNode 格式化后，创建 Fsimage 和 Edits 文件。如果不是第一次启动，直接加载编辑日志和镜像文件到内存。
- Fsimage：NameNode 内存中元数据序列化后形成的文件。是 HDFS 中元数据的一个永久性的检查点，包括文件目录和文件 inode 的序列化信息。
- Edits：记录客户端更新元数据信息的每一步操作（可通过Edits运算出元数据）。
- 由于 Edits 中记录的操作会越来越多，Edits 文件会越来越大，导致 NameNode 在启动加载 Edits 时会很慢，所以需要对 Edits 和 Fsimage 进行合并（所谓合并，就是将 Edits 和 Fsimage 加载到内存中，照着 Edits 中的操作一步步执行，最终形成新的 Fsimage）。
客户端对元数据进行增删改的请求。
NameNode 记录操作日志，更新滚动日志。
NameNode 在内存中对元数据进行增删改。

第二阶段：Secondary NameNode 工作

Secondary NameNode 询问 NameNode 是否需要 CheckPoint。直接带回 NameNode 是否检查结果。
Secondary NameNode 请求执行 CheckPoint。
NameNode 滚动正在写的 Edits 日志。
将滚动前的编辑日志和镜像文件拷贝到 Secondary NameNode。
Secondary NameNode 加载编辑日志和镜像文件到内存，并合并。
生成新的镜像文件 fsimage.chkpoint。
拷贝 fsimage.chkpoint 到 NameNode。
NameNode 将 fsimage.chkpoint 重新命名成 fsimage。

3.2 NameNode 故障处理

方法 1：将 SecondaryNameNode 中数据拷贝到 NameNode 存储数据的目录。

kill -9 NameNode 进程
删除 NameNode 存储的数据（/opt/module/hadoop-3.1.3/data/tmp/dfs/name）
拷贝 SecondaryNameNode 中数据到原 NameNode 存储数据目录
重新启动 NameNode

方法 2：使用 -importCheckpoint 选项启动 NameNode 守护进程，从而将 SecondaryNameNode 中数据拷贝到 NameNode 目录中。

4.DataNode 工作机制

4.1 工作机制

在这里插入图片描述

一个数据块在 DataNode 上以文件形式存储在磁盘上，包括两个文件，一个是数据本身，一个是元数据包括数据块的长度，块数据的校验和，以及时间戳。
DataNode 启动后向 NameNode 注册，通过后，周期性（1小时）的向 NameNode 上报所有的块信息。
心跳是每 3 秒一次，心跳返回结果带有 NameNode 给该 DataNode 的命令如复制块数据到另一台机器，或删除某个数据块。如果超过 10 分钟没有收到某个 DataNode 的心跳，则认为该节点不可用。
集群运行中可以安全加入和退出一些机器。

4.2 数据完整性

当 DataNode 读取 Block 的时候，它会计算 CheckSum。
如果计算后的 CheckSum 与 Block 创建时值不一样，说明 Block 已经损坏。
Client 读取其他 DataNode 上的 Block。
DataNode 在其文件创建后周期验证 CheckSum。
常见的校验算法 crc（32），md5（128），sha1（160）

【Hadoop】HDFS 原理

1.HDFS 概念

2.HDFS 数据流

2.1 写入流程

2.2 副本节点选择

2.3 读取流程

3.NameNode 和 SecondaryNameNode

3.1 NN 和 2NN 工作机制

3.2 NameNode 故障处理

4.DataNode 工作机制

4.1 工作机制

4.2 数据完整性

猜你喜欢