大数据学习之hadoop——06HDFS文件系统读写数据流程 - 代码天地

大数据学习之hadoop——06HDFS文件系统读写数据流程

其他 2021-03-03 15:12:02 阅读次数: 0

HDFS中的数据写入读出原理

1、HDFS写数据流程

hadoop fs -put /home/bduser/xxx.txt /animals/tiger/

当我们执行上面这条语句时，集群将执行以下几个步骤（以一台NameNode，三台DataNode的完全分布式集群为例）

1.1、客户端向NameNode发送请求：上传文件
- 检查该文件是否存在于文件系统，如果存在，则提示该文件已经存在与目标目录下
- 检查该文件上传的目标目录是否存在，如果不存在，则提示没有那个文件或目录
1.2、NameNode返回消息
- 如果存在1.1中的两种失败情况，将会返回客户端数据上传失败的原因，客户端将其输出至控制台
- 如果不存在1.1中的两种失败情况，将会返回客户端可以上传文件的消息
1.3、客户端接收到1.2返回的可以上传消息后，再次向NameNode发送请求：应当把数据块发送至哪几个DataNode节点上？
1.4、NameNode得到1.3的请求会返回几个节点（）以及存储位置，例如node01、node02、node03的什么什么路径
1.5、客户端得到1.4NameNode返回的信息后将向临近节点发送建立联系的请求，由节点之间一个请求一个的建立起数据通道
1.6、如果所有节点的数据通道都建立成功，将返回可以上传数据的消息
1.7、客户端得到可以上传数据的消息之后，将第一个block块放入本地内存缓存中，以packet为单位传送至临近的节点上，该节点传给其临近的节点以此类推完成传数据递。（遵循http数据传输协议）
1.8、当第一个数据块传输完毕后，将会传输剩余的数据块，重复执行上述步骤。。。
1.9、当该文件的所有数据块都上传完毕之后，将会在NameNode上创建该文件的元数据

2、HDFS读数据流程

2.1、客户端向NameNode发送请求：下载文件xxx
2.2:、NameNode查询元数据，找到文件块的地址，返回目标的元数据
2.3、客户端按照就近原则向其中的一台机器发起读数据块1请求
2.4、DataNode将数据传输会客户端
2.5、客户端按照2.3、2.4、的步骤重复执行读数据块2…
2.5、客户端将以packet为单位接收数据块，放入本地缓存，然后存入目标目录

猜你喜欢

转载自blog.csdn.net/nothair/article/details/104930295

大数据学习之hadoop——06HDFS文件系统读写数据流程

大数据技术之Hadoop之HDFS(7)——HDFS读写数据流程

大数据：Hadoop（HDFS 读写数据流程及优缺点）

Hadoop 之 HDFS (HDFS 数据流的读写流程)

【Hadoop学习之HDFS】_06HDFS的shell操作

hadoop的HDFS读写数据流程

Hadoop文件系统——HDFS读写数据流

大数据学习笔记之Hadoop（二）：HDFS文件系统

HDFS读写数据流程

大数据之Hadoop（十）：hadoop概念扩展——HDFS 读写流程以及高可用

【Hadoop学习之HDFS】_10HDFS的数据流

HDFS读写数据流程详解

HDFS组成架构与读写数据流程

大数据时代之hadoop(一)：hadoop安装大数据时代之hadoop(二)：hadoop脚本解析大数据时代之hadoop(三)：hadoop数据流（生命周期）大数据时代之hadoop(四)：hadoop 分布式文件系统（HDFS) 大数据时代之hadoop(五)：hadoop 分布式计算框架（MapReduce）

大数据之Hadoop（八）：hadoop概念扩展——Hadoop生态系统、hdfs读写流程、Hadoop发行版本的选择

大数据系列之再识Hadoop文件系统HDFS

大数据之Hadoop分布式文件系统HDFS

大数据系列文章-Hadoop的HDFS读写流程（二）

hadoop HDFS 读数据流程

hadoop HDFS 写数据流程

图解Hadoop hdfs写数据流程

Hadoop之HDFS(HDFS的数据流读写数据) （面试开发重点）

大数据技术之Hadoop（HDFS）概述、Shell操作、API操作、读写流程、工作机制

大数据学习之hadoop——05HDFS文件系统JavaAPI

大数据学习之hadoop——04HDFS文件系统操作指令

大数据学习之hadoop——03HDFS文件系统概述

大数据时代之hadoop(一)：hadoop安装大数据时代之hadoop(二)：hadoop脚本解析大数据时代之hadoop(三)：hadoop数据流（生命周期）大数据时代之hadoop(四)：hadoop 分布式文件系统（HDFS)

学习笔记:从0开始学习大数据-5.hadoop hdfs文件读写api操作

Hadoop_08_客户端向HDFS读写（上传）数据流程

大数据笔记 1--hadoop中的hdfs写数据流程详解

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)