Hadoop基本介绍

hadoop 的组成部分

HDFS
辅助管理者：SecondaryNameNode
工作者：DataNode
MapReduce
Yarn

HDFS 副本存放机制

第一份
第二份
第三个

Namenode作用
DataNode作用
RPC remote procedure call
HDFS数据写入流程（重点）
HDFS数据读取流程（重点）
HDFS数据完整性
HDFS适用场景

hadoop 的组成部分

HDFS

管理者：NameNode
作用：负责管理，管理集群内各个节点。
负责管理整个文件系统的元数据（指的是数据的存放位置或存放路径）或名字空间

辅助管理者：SecondaryNameNode

作用：责辅助NameNode管理工作。

工作者：DataNode

作用：负责工作，进行读写数据。周期向NameNode汇报。
负责管理用户的文件数据块(一个大的数据拆分成多个小的数据块)

MapReduce

Yarn

管理者：ResourceManager
工作者：NodeManager

HDFS 副本存放机制

第一份

数据来源于客户端

第二份

存放的位置是与第一个副本在相同机架上，且不在同一个节点，按照一定的规则（cpu 内存 IO是用率，和硬盘剩余容量）找到一个节点存放

第三个

副本的存放位置是与第一第二份数据副本不在同一个机架上，且逻辑与存放副本1和2的机架距离最近的机上
按照一定的规则（cpu 内存 IO是用率，和硬盘剩余容量）找到一个节点进行存放

Namenode作用

1、维护管理文件系统的名字空间(元数据信息)
2、负责确定指定的文件块到具体的Datanode结点的映射关系。
3、维护管理 DataNode上报的心跳信息

DataNode作用

1、执行数据的读写（响应的是客户端）
2、周期性向NameNode做汇报（数据块的信息、校验和）若datanode10分钟没有向NameNode做汇报，表示已丢失（已宕机）心跳周期 3秒
3、执行流水线的复制（一点一点复制）

RPC remote procedure call

RPC 指的是远程过程调用。是集群中多个组件、多个模块进行数据通信的一
种方式。

HDFS数据写入流程（重点）

在这里插入图片描述

1、 client发起文件上传请求，通过RPC与NameNode建立通讯，NameNode检查目标文件是否已存在，父目录是否
存在，返回是否可以上传；
2、 client请求第一个block该传输到哪些DataNode服务器上；
3、 NameNode根据配置文件中指定的备份数量及机架感知原理进行文件分配，返回可用的DataNode的地址如：A，B，C；
4、 client请求3台DataNode中的一台A上传数据（本质上是一个RPC调用，建立pipeline），A收到请求会继续调用
B，然后B调用C，将整个pipeline建立完成，后逐级返回client；
5、 client开始往A上传第一个block（先从磁盘读取数据放到一个本地内存缓存），以packet为单位（默认64K），A
收到一个packet就会传给B，B传给C；A每传一个packet会放入一个应答队列等待应答。
6、数据被分割成一个个packet数据包在pipeline上依次传输，在pipeline反方向上，逐个发送ack（命令正确应
答），最终由pipeline中第一个DataNode节点A将pipelineack发送给client;
7、关闭写入流。
8、当一个block传输完成之后，client再次请求NameNode上传第二个block到服务器。

HDFS数据读取流程（重点）

在这里插入图片描述

1、客户端通过调用FileSystem对象的open()来读取希望打开的文件。
2、 Client向NameNode发起RPC请求，来确定请求文件block所在的位置；
3、 NameNode会视情况返回文件的部分或者全部block列表，对于每个block，NameNode 都会返回含有该 block副本的 DataNode 地址；这些返回的 DN 地址，会按照集群拓扑结构得出 DataNode 与客户端的距离，然后进行排序，排序两个规则：网络拓扑结构中距离 Client 近的排靠前；心跳机制中超时汇报的 DN 状态为 STALE，这样的排靠后；
4、 Client 选取排序靠前的 DataNode 来读取 block，如果客户端本身就是DataNode,那么将从本地直接获取数据(短
路读取特性)；
5、底层上本质是建立 Socket Stream（FSDataInputStream），重复的调用父类 DataInputStream 的 read 方法，
直到这个块上的数据读取完毕；
6、并行读取，若失败重新读取
7、当读完列表的 block 后，若文件读取还没有结束，客户端会继续向NameNode 获取下一批的 block 列表；
8、返回后续block列表
9、最终关闭读流，并将读取来所有的 block 会合并成一个完整的最终文件。

HDFS数据完整性

在这里插入图片描述

数据在写入之后进行校验和的计算，DataNode周期性进行校验和计算，将计算结果与第一次的结果进行对比。
若相同表示无数据丢失，若不相同表示数据有丢失，丢失进行数据恢复。
数据读取之前对数据进行校验，与第一次的结果进行对比。若相同表示数据没有丢失，可以读取。若不相同表示数据有所丢失。到其他副本读取。

HDFS适用场景

一次写入，多次读出的场景。支持数据在文件尾追加。不支持在文件中间追加或修改。

Hadoop基本介绍(1)

Hadoop基本介绍

hadoop 的组成部分

HDFS

辅助管理者：SecondaryNameNode

工作者：DataNode

MapReduce

Yarn

HDFS 副本存放机制

第一份

第二份

第三个

Namenode作用

DataNode作用

RPC remote procedure call

HDFS数据写入流程（重点）

HDFS数据读取流程（重点）

HDFS数据完整性

HDFS适用场景

猜你喜欢