HDFS存储与架构 - 代码天地

HDFS存储与架构

其他 2019-07-14 11:14:50 阅读次数: 0

HDFS存储模型

以字节形式存储
文件线性切割成块（Block）:偏移量 offset （byte）
Block分散存储在集群节点中
单一文件Block大小一致，文件与文件可以不一致
Block可以设置副本数，副本无序分散在不同节点中
副本数不要超过节点数量
文件上传可以设置Block大小和副本数（资源不够开辟的进程）
已上传的文件Block副本数可以调整，大小不变（2.x 128MB 3 blocks）
只支持一次写入多次读取，同一时刻只有一个写入者
可以append追加数据

HDFS架构模型

文件元数据MetaData，文件数据
- 元数据
- 数据本身
NameNode（主）节点保存文件元数据：单节点 posix
DataNode（从）节点保存文件Block数据：多节点
DataNode与NameNode保持心跳，提交Block列表
HdfsClient与NameNode交互元数据信息
HdfsClient与DataNode交互文件Block数据（cs）
DataNode 利用服务器本地文件系统存储数据块

HDFS架构图

HDFS设计思想

分散均匀存储 dfs.blocksize = 128M
备份冗余存储 dfs.replication = 3

NameNode（NN）

基于内存存储：不会和磁盘发生交换（双向）
- 只存在内存中
- 持久化（单向）
NameNode主要功能：
- 接受客户端的读写服务
- 收集DataNode汇报的Block列表信息
NameNode保存metadata信息包括
- 文件owership和permissions
- 文件大小，时间
- （Block列表：Block偏移量），位置信息（持久化不存）
- Block每副本位置（由DataNode上报）

NameNode持久化

NameNode的metadata信息在启动后会加载到内存
metadata存储到磁盘文件名为”fsimage”（时点备份）
Block的位置信息不会保存到fsimage
edits记录对metadata的操作日志…>Redis
二者的产生时间和过程？（format）

SecondaryNameNode（SNN）

它不是NN的备份（但可以做备份），它的主要工作是帮助NN合并edits log，减少NN启动时间。
SNN执行合并时机
- 根据配置文件设置的时间间隔fs.checkpoint.period 默认3600秒
- 根据配置文件设置edits log大小 fs.checkpoint.size 规定edits文件的最大值默认是64MB

SNN合并流程图

DataNode（DN）

本地磁盘目录存储数据（Block），文件形式
同时存储Block的元数据信息文件
启动DN时会向NN汇报block信息
通过向NN发送心跳保持与其联系（3秒一次），如果NN 10分钟没有收到DN的心跳，则认为其已经lost，并copy其上的block到其它DN

HDFS优点

高容错性
- 数据自动保存多个副本
- 副本丢失后，自动恢复
适合批处理
- 移动计算而非数据
- 数据位置暴露给计算框架（Block偏移量）
适合大数据处理
- GB 、TB 、甚至PB 级数据
- 百万规模以上的文件数量
- 10K+ 节点
可构建在廉价机器上
- 通过多副本提高可靠性
- 提供了容错和恢复机制

HDFS缺点

低延迟数据访问
- 比如毫秒级
- 低延迟与高吞吐率
小文件存取
- 占用NameNode 大量内存
- 寻道时间超过读取时间
并发写入、文件随机修改
- 一个文件只能有一个写者
- 仅支持append

Block的副本放置策略

第一个副本：放置在上传文件的DN；如果是集群外提交，则随机挑选一台磁盘不太满，CPU不太忙的节点。
第二个副本：放置在于第一个副本不同的机架的节点上。
第三个副本：与第二个副本相同机架的节点。
更多副本：随机节点

猜你喜欢

转载自www.cnblogs.com/dragon-123/p/11182224.html

HDFS存储与架构

HDFS未来底层存储架构的演变趋势

HDFS存储架构剖析以及读写流程

HDFS分布式存储架构和读写机制总结

HDFS架构

hdfs 架构

HDFS的架构

hdfs深入：03、hdfs的架构以及副本机制和block块存储

《深入HDFS》--HDFS内存存储

《深入HDFS》HDFS异构存储

HDFS架构&理解数据块、副本数、小文件的概念&改变hdfs存储目录&NN和SNN交互流程

三、Hadoop的架构：存储层(Hadoop分布式文件系统) HDFS

快手实时处理系统存储架构演进之路--kafka+Hdfs+读写分离

分布式存储技术（上）：HDFS 与 Ceph的架构原理、特性、优缺点解析

HDFS的异构存储测试

HDFS存储原理

1.HDFS存储

HDFS的存储策略

HDFS支持外部存储

HDFS 异构存储实战

hadoop ——HDFS存储

HDFS数据存储模式

hdfs 存储测试

HDFS 异构存储

HDFS异构存储实战

HDFS的存储机制

Hadoop——HDFS文件存储

hdfs的异构存储

HDFS架构及原理

HDFS 架构指南

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)