《大数据技术应用与原理》第二版-第三章分布式文件系统HDFS - 代码天地

《大数据技术应用与原理》第二版-第三章分布式文件系统HDFS

其他 2019-12-22 03:17:32 阅读次数: 0

3.1分布式文件

HDFS默认一个块的大小是64MB，与普通文件不同的是如果一个文件小于数据块的大小，它并不占用整个数据块的存储空间。
主节点又叫名称节点；另一个叫从节点又叫数据节点。名称节点负责文件和目录的创建、删除和重命名，同时管理数据节点和文件块的映射关系。数据节点负责数据存储和读取。

3.2HDFS的相关概念

MapReduce中的map一次只处理一个块中的数据。HDFS抽象块的概念可以带来一下好处：
- 支持大规模文件存储
- 简化系统
- 适合数据备份
名称节点在启动过程中处于安全模式，只对外提供读操作，无法提供写操作。启动过程结束后，系统会退出安全模式，就可以对外界提供读写操作。
名称节点中保存两个核心数据结构FsImage和EditLog
第二名称节点，解决EditLog逐渐变大带来的问题，两个功能EditLog与FsImage的合并操作；作为名称节点的检查点，注意是冷备份。

3.4HDFS体系结构

采用主从模型，在整个HDFS集群中只有一个命名空间，并且只有唯一一个名称节点。
HDFS通信协议是建立在TCP/IP协议上面的，并使用客户端协议与名称节点进行交互，名称节点和数据节点之间则使用数据节点协议进行交互。客户端与数据节点交互是通过RPC来实现的。
因为只设置了一个名称节点，存在局限性。
- 命名空间的限制
- 性能的瓶颈
- 隔离问题
- 集群的可用性
HDFS的存储原理
- 数据冗余存储，具有以下优点；加快数据传输速度；容易检查数据错误；保证数据的可靠性
- 数据存取策略，包括数据存储、数据读取（就近原则，HDFS提供一个API可以确定数据节点所属的机架ID）、数据复制（采用流水线复制策略）。
- 数据错误与恢复，名称节点出错（一是通过两个核心数据结构，而是通过第二名称节点）；数据节点出错；数据出错

3.6HDFS数据读写过程

HDFS的读过程，图片
HDFS的写过程，图片
1. 创建文件请求
2. 创建文件元数据
3. 写入数据
4. 写入数据包（包括了流水线复制）
5. 接收确认数据包
6. 关闭文件
7. 写操作完成
hadoop fs（用作任何文件系统，比如本地文件系统和HDFS文件系统）hadoop dfs（只适用于HDFS文件系统）hdfs dfs（也只适用于HDFS文件系统）

猜你喜欢

转载自www.cnblogs.com/tsruixi/p/12078848.html

《大数据技术应用与原理》第二版-第三章分布式文件系统HDFS

大数据技术原理与应用期末复习知识点-第三章-分布式文件系统HDFS

第三章-分布式文件系统HDFS

厦门大学林子雨开设的《大数据技术原理与应用》第二章分布式文件系统HDFS笔记

熟悉常用的HDFS操作（大数据技术原理与应用-第三章实验）

《大数据技术应用与原理》第二版-第四章分布式数据库HBase

【嵌入式】嵌入式系统开发与应用第二版课后答案第三章（田泽）

大数据技术原理与应用第二篇大数据存储与管理（一）分布式文件系统HDFS和分布式数据库HBase

厦门大学林子雨开设的《大数据技术原理与应用》第三章分布式数据库HBase数据库笔记

《Hadoop权威指南第4版》 - 第三章 Hadoop分布式文件系统 - 设计概念/数据流/Java接口

《Hadoop权威指南》第三章 Hadoop分布式文件系统

数据结构c语言版第二版(严蔚敏)第三章笔记

数据结构与算法分析 C 语言描述第二版第三章——链表实现多项式相乘

数据结构与算法分析 C 语言描述第二版第三章——链表实现多项式相加

《Java数据结构和算法》第二版 Robert lafore 编程作业第三章

数据结构与算法分析 C 语言描述第二版第三章——链表（linked list）

具体数学第二版第三章习题（2）

具体数学第二版第三章习题（3）

学习bash第二版-第三章定制用户环境

Python核心编程(第二版) 第三章习题答案

MongoDB实战第二版笔记（4）第三章笔记

C++ 标准库第二版 —— 第三章《语言新特性》

视觉SLAM十四讲（第二版）第三章笔记

《游戏设计艺术（第二版）》第三章个人学习

第三章-处理原始文本(Natural Language Processing with Python第二版)

算法入门经典第二版第三章字符串的后续

算法竞赛入门经典第二版第三章笔记和答案

《大数据技术应用与原理》第二版-第二章大数据处理架构Hadoop

大数据总结【第三章：HDFS】

大数据技术 - 分布式文件系统 HDFS 的设计

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)