[2]HDFS原理 - 代码天地

[2]HDFS原理

其他 2018-10-24 21:04:39 阅读次数: 0

版权声明：Collected by Bro_Rabbit only for study https://blog.csdn.net/weixin_38240095/article/details/82987624

1. 基本原理引入：以写操作为例

Put in hdfs

*防裂说明*：

Client写入blk_x的第一份副本给某个 DataNode后，继续写blk_x+1的第一份副本给某个DataNode，blk_x的n份副本由第一份副本所在DataNode拷贝给其他DataNode，整个过程是异步进行的；
存储小文件降低性能，主要原因为：
- 不会浪费DataNode，因为默认情况下一个Block=128MB，小于128MB的文件同样占用一个Block；
- 但会浪费NameNode，因为元数据meta的存储空间是有限的（也就决定了格式化的meta项数是一定的[类似CPU地址线决定存储单元的个数]）
- 整个FS的理论存储容量=meta的项数*Block大小

2. HDFS副本Replicas放置策略：

第一副本一般置于离客户端最近的DataNode；
第二副本优先放在另一个机架Rack上的DataNode；
第三副本将从本机架Rack随机找一个DataNode；

3. NameNode的meta元数据管理机制[重点]

(1) 一条meta元数据记录：

数据结构：NameNode(FileName, Replicas, Block_ids, id2host ...)
举例：/test/a.log, 3, {blk_1,blk_2}, [{blk_1:[h0,h1,h2]},{blk_2:[h2,h3,h4]}],...

(2) 写入put时的meta变化

Meta move

(3)读取get直接通过内存中元数据meta进行操作。内存中的元数据meta实时更新，总是最新的。

(4) meta元数据合并

CheckPoint

什么时候CheckPoint?

fs.checkpoint.period 指定两次 checkpoint 的最大时间间隔，默认3600s
fs.checkpoint.size 规定edits_log文件的最大值，一旦超过这个值强制checkpoint，不管是否到达最大时间间隔。默认大小是64M。

目前机制的问题：

CheckPoint之前，NameNode宕机，meta可以通过fsimage+edits_log恢复，但是截止到恢复Service不能正常提供。

解决方案：

双NameNode -> HA

*总结：NameNode主要职责

维护元数据meta信息
维护hdfs的虚拟目录树
响客户端请求

4. DataNode真实数据存储

从字节流中仅按配置字节切块，不做其他任何改动；
HDFS默认Block大小是128MB，可以修改hdfs-site.xml中的dfs.block.size来配置块大小；
HDFS中，如果一个文件小于一个Block大小，并不占用整个Block的存储空间，但仍会占用一条元数据meta记录；
副本Replicas默认为3个，可以修改hdfs-site.xml中的dfs.replication来配置块的副本数；

猜你喜欢

转载自blog.csdn.net/weixin_38240095/article/details/82987624

HDFS原理2

[2]HDFS原理

2.HDFS基础_工作原理

HDFS2.X架构及工作原理

HDFS原理

HDFS 原理

Hadoop day2-01HDFS文件系统和原理

hadoop学习记（2）--HDFS+yarn+MapReduce关系与原理

2_HDFS的基本架构，工作原理

hdfs组件nn和2nn原理

Hadoop day2-02 HDFS的shell操作和HDFS架构、原理

HDFS原理——HDFS就是一个情报组织（2）

Hadoop HDFS原理分析

漫画HDFS工作原理

HDFS架构及原理

HDFS原理1

HDFS的运行原理

HDFS原理分析

HDFS工作原理

HDFS技术原理

HDFS QJM原理分析

HDFS原理综述篇

HDFS的工作原理

Hadoop HDFS原理

Hadoop之--HDFS原理

hadoop：hdfs架构及原理

HDFS读写原理

初识HDFS原理及框架

HDFS的架构及原理

HDFS存储原理

今日推荐

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

周排行

阿里云短信服务平台注册

Windows下的字符串处理(1)

sqoop: mysql导入数据到hdfs, hive, hbase

commons.lang中常用的工具类

离线安装PostgreSQL11.6

使用PyTorch简单实现卷积神经网络模型

一文彻底搞定谱聚类

一道面试题引发的血案

One Chat for Mac(聊天工具)

TCP/IP的底层队列是如何实现的？

每日归档

更多

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)