HDFS的数据流

企业开发 2020-02-05 11:05:23 阅读次数: 0

HDFS的数据流

1.1 HDFS写数据流程

1.1.1 剖析文件写入
HDFS写数据流程，如图所示。

1）客户端通过Distributed FileSystem模块向NameNode请求上传文件，NameNode检查目标文件是否已存在，父目录是否存在。
2）NameNode返回是否可以上传。
3）客户端请求第一个 Block上传到哪几个DataNode服务器上。
4）NameNode返回3个DataNode节点，分别为dn1、dn2、dn3。
5）客户端通过FSDataOutputStream模块请求dn1上传数据，dn1收到请求会继续调用dn2，然后dn2调用dn3，将这个通信管道建立完成。
6）dn1、dn2、dn3逐级应答客户端。
7）客户端开始往dn1上传第一个Block（先从磁盘读取数据放到一个本地内存缓存），以Packet为单位，dn1收到一个Packet就会传给dn2，dn2传给dn3；dn1每传一个packet会放入一个应答队列等待应答。
8）当一个Block传输完成之后，客户端再次请求NameNode上传第二个Block的服务器。（重复执行3-7步）。

1.1.2 网络拓扑-节点距离计算
在HDFS写数据的过程中，NameNode会选择距离待上传数据最近距离的DataNode接收数据。那么这个最近距离怎么计算呢？
节点距离：两个节点到达最近的共同祖先的距离总和。

网络拓扑
例如，假设有数据中心d1机架r1中的节点n1。该节点可以表示为/d1/r1/n1。利用这种标记，这里给出四种距离描述，如上图所示。
大家算一算每两个节点之间的距离，如下图所示。

1.1.3 机架感知（副本存储节点选择）
1.官方ip地址
机架感知说明
http://hadoop.apache.org/docs/r2.7.2/hadoop-project-dist/hadoop-hdfs/HdfsDesign.html#Data_Replication
For the common case, when the replication factor is three, HDFS’s placement policy is to put one replica on one node in the local rack, another on a different node in the local rack, and the last on a different node in a different rack.
2.Hadoop2.7.2副本节点选择

1.2 HDFS读数据流程

HDFS的读数据流程，如图所示。

1）客户端通过Distributed FileSystem向NameNode请求下载文件，NameNode通过查询元数据，找到文件块所在的DataNode地址。
2）挑选一台DataNode（就近原则，然后随机）服务器，请求读取数据。
3）DataNode开始传输数据给客户端（从磁盘里面读取数据输入流，以Packet为单位来做校验）。
4）客户端以Packet为单位接收，先在本地缓存，然后写入目标文件。

详情请见：https://blog.csdn.net/intflag/article/details/86247126

可爱的杨一凡

发布了4 篇原创文章 · 获赞 2 · 访问量 195

私信关注

猜你喜欢

转载自blog.csdn.net/weixin_45553177/article/details/104167207

HDFS的数据流

HDFS中的数据流

Hadoop HDFS 数据流

HDFS 基本概念&数据流

浅谈hdfs架构与数据流

快速学习-HDFS的数据流

Hadoop之HDFS的数据流

hadoop-HDFS的数据流

HDFS的数据流（读和写）

HDFS的数据流（面试重点）

【Hadoop学习之HDFS】_10HDFS的数据流

Hadoop 之 HDFS (HDFS 数据流的读写流程)

大数据（五）：HDFS数据流深入理解

从0开始学大数据（6）：HDFS的数据流

Hadoop系列008-HDFS的数据流

hdfs 数据流单位 block、packet与chunk

Hadoop文件系统——HDFS读写数据流

HDFS数据流原理，节点距离，机架感知

流-数据流

Hadoop之HDFS(HDFS的数据流读写数据) （面试开发重点）

数据流图-数据流

数据流图

java数据流

BeanDefinition数据流

MapReduce数据流

Redux 数据流

nmap数据流

redux的数据流

什么是数据流？

文件及数据流

今日推荐

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

周排行

Family Tree 题解

BZOJ 1093 最大半连通子图 SCC + DP

幂等处理

Spring----学习（2）----XML 配置Bean 自动装配

SQL Server 远程更新目标表数据

HIbernate3.6 环境搭建

特殊符号正则表达式

【Linux】第一章进程的理解

843. n-皇后问题（dfs+输出各种情况）

空间数据库2

每日归档

更多

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)