HDFS入门，基础，学习笔记（可能是最详细的HDFS入门基础了）

编程语言 2023-06-05 20:25:38 阅读次数: 0

目录

SecondaryNameNode：

NameNode实现流程：

DataNode实现流程：

HDFS的优点：

HDFS的缺点：

什么是HDFS?

HDFS是分布式文件存储系统，用于大数据的存储.一个HDFS系统通常由一个NameNode，一个SecondaryNameNode和若干DataNode组成.

NameNode负责管理整个文件系统元数据；DataNode负责管理具体文件数据块存储；Secondary NameNode协助NameNode进行元数据的备份.

HDFS详解：

NameNode:

NameNode用来管理文件系统的元数据，是HDFS集群中的大管家，它不负责存储具体的数据.NameNode由两个核心组件组成：Fsimage和Edits.

Fsimage:

Fsimage中存有元数据（文件和文件块（Block）之间的所属关系，文件块和机器之间的映射关系），是在NameNode启动时对整个文件系统的快照，持久化在NameNode的本地磁盘上.

Edits:

用户发起的创建、删除等操作其实是一个个日志，日志在NameNode上以edit对象存储在edits文件中，持久化在NameNode的本地磁盘上.

SecondaryNameNode：

NameNode的秘书，用来合并NameNode的Edits到Fsimage文件中，分担NameNode的压力。

NameNode实现流程：

NameNode启动时，在NameNode内存中会同步一份磁盘中的Fsimage的数据。当用户发起操作指令时，会先在edits中进行登记，在edits中写入日志（本次操作所做的事情），然后修改NameNode内存中的元数据信息，修改完成直接返回用户结果,此时NameNode会启动进程在DataNode中执行操作。

然而，edits是需要和fsimage进行合并为新的Fsimage的，合并的条件有三个：

服务重启时，检查edits中是否有数据，如果有，将两个文件进行合并；
Edits文件大小达到64MB，合并；
距离上次文件合并达到1小时，合并。

然而，如果edits和fsimage文件合并时，用户发起操作指令，edits为被占用状态，无法写入数据，此时会在NameNode磁盘中生成一个新的文件——edits.new，在edits.new文件中写入日志。同时NameNode将edits和fsimage发送到SecondaryNameNode中，SecondaryNameNode将两个文件合并成一个新的文件fsimage.ckpt，然后发回到NameNode磁盘中。此时会同时将fsimage.ckpt和edits.new的后缀名去掉，变回fsimage和edits。

DataNode:

DataNode是HDFS中文件的实际存储节点，负责管理它所在节点的文件块存储，记录自己存放文件的基本信息。

Block:

文件块，在Hadoop1.0时，每块64MB，Hadoop2.0时，每块128MB，默认备份三份。

DataNode实现流程：

webservlet发起文件上传请求，与NameNode建立通信，NameNode检查目标文件是否已存在，是否可以上传。如果可以，NameNode会将此文件进行逻辑上的区域划分为block文件块，每128MB划分为一块，划分完成后通知存储压力小的DataNode进行保存（负载均衡策略），默认备份三份（Block备份放置位置下方解释）。

Block备份放置位置：

第一份：如果该文件本身从Hadoop集群中的某个节点上传，那么第一份存放在上传节点中，如果从Hadoop集群之外上传，那么存放在相对不太忙，负载较小的节点上。

第二份：放在与第一份所放置的节点相邻机架上的某个节点上。

第三份：放在与第二份所在节点的机架上的另外一台机器上。

三份以上，放置在负载相对较小的节点上。

HDFS的优点：

可以存储海量超大文件（无限拓展）

高容错，支持数据丢失自动恢复

可以构建在廉价机上

HDFS的缺点：

做不到低延迟访问

不支持超强的事务

不适合存大量小文件

不支持行级别的增删改

猜你喜欢

转载自blog.csdn.net/yuyangchenhao/article/details/107216480

HDFS入门，基础，学习笔记（可能是最详细的HDFS入门基础了）

HDFS学习笔记：HDFS基础

【可能是全网最好的】MySQL基础入门总结笔记

HDFS最基础使用

可能是最简单、详细的spring boot入门教程

初学者该如何快速入门Python？这可能是最详细的学习攻略了！

这可能是最简单易懂的机器学习入门

【Hadoop离线基础总结】HDFS入门介绍

HDFS入门

HDFS基础

这可能是我见过最详细的线段树教程（基础+进阶）

php最简单最基础入门笔记

JAVA访问HDFS（满满干货！基础操作入门）

马士兵机器学习入门-可能是最易懂的机器学习课程

最详细的Python入门基础语法总结！

python入门基础，全网最详细教程

（小白必读）这可能是最简单易懂的机器学习入门

这可能是最简单易懂的机器学习入门（小白必读）

可能是最通俗易懂的Python入门资料整理和最优学习路线推荐

Hadoop入门学习笔记——三、使用HDFS文件系统

这可能是最容易入门的socket教程了

【Hadoop离线基础总结】HDFS详细介绍

这可能是最为详细的Docker入门吐血总结

MySQL数据库快速入门到精通（超详细保姆级，建议收藏）这可能是目前最适合你的教程，从基础语法到实例演示。

这可能是最为详细的Docker入门吐血总结这可能是最为详细的Docker入门吐血总结

java最简单最全入门基础笔记

【夯实Java基础06】这可能是把Java反射写的最详细的一篇文章

HDFS文件的读写流程入门学习

爬虫入门（最基础的）

Hadoop入门（5）--HDFS

今日推荐

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

周排行

static方法和非static方法的区别（java）

如何查找计算机专业paper

java.lang.ClassFormatError: Incompatible magic value 0 in class file com/sitecha

跳跃游戏II

stm32_之【建立工程】

TeaWeb v0.0.9 发布，统计底层优化、主机监控功能改进

事件分发 -----控制字体大小

JavaScript DOM练习（动态表格添加） December 25，2019

JSF Scope & CDI

实现从零搭建一个登录注册页面（附源代码）

每日归档

更多

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)