【大数据入门笔记系列】第四节 Hdfs读数据处理流程

概念
后记
跳转

概念

上一节提到的概念：

NameNode：管理分布式文件系统的元数据，这些元数据是一些诸如描述文件的存储路径以及block具体在哪些DataNode上的具体位置等；
DataNode：DataNode节点用来保存文件数据块（block），它只负责接受存储、查询发送文件，不负责文件的切块；
文件切割：文件的切割默认是以128M为标准（该数值可通过参数设定），小于该标准的文件不切割，超过该标准的文件会被切成若干个block块；一个文件切割出来的多个block在存储时，每个block的存储地址都由NameNode决定，当一个block存储完毕后，下一个block要重新向NameNode申请存储地址；这些被切割出来的block块会根据replication（复制因子）复制出多个副本，且副本存放在不同的DataNode上；
汇报机制：DataNode会定时向NameNode汇报自身的block信息，NameNode会负责保存这些DataNode汇报上来的元数据，并保存文件的副本数量，一旦副本数量不满足复制因子规定的数目，则NameNode会指定一台DataNode（没有改副本的节点）从有该副本的DataNode上拷贝（一个副本ID在一台DataNode上有且仅有一份）；
容错机制：如果存在DataNode宕机，那么当集群中的DataNode出发定时向NameNode汇报时，NameNode就会得知哪些机器宕机了，统计完副本分布情况之后，NameNode就知道哪些副本少了，于是NameNode就负责寻找一个没有这个副本节点从有这个副本的DataNode上拷贝一份（一个副本ID在一台DataNode上有且仅有一份）；
客户端请求方式：Hdfs的内部工作机制对客户端保持透明，客户端请求访问Hdfs都是通过NameNode申请实现的。

后记

对Hdfs读数据处理流程的理解交代完了，后面再交代NameNode的相关机制，个人理解恐有失偏颇，欢迎留言指正。

跳转

【大数据入门笔记系列】写在前面
 【大数据入门笔记系列】第一节大数据常用组件
 【大数据入门笔记系列】第二节 Zookeeper简介
 【大数据入门笔记系列】第三节 Hdfs写数据处理流程
 【大数据入门笔记系列】第四节 Hdfs读数据处理流程

Jack_Roy

发布了41 篇原创文章 · 获赞 56 · 访问量 6万+

私信关注

【大数据入门笔记系列】第四节 Hdfs读数据处理流程

【大数据入门笔记系列】第四节 Hdfs读数据处理流程

概念

后记

跳转

猜你喜欢