3 Hadoop分布式文件系统

其他 2020-04-13 12:44:03 阅读次数: 0

文章目录

3.1 HDFS的设计
3.2HDFS的概念

3.2.1数据块

当数据集的大小超过一台计算机的存储能力时,就有必要对它进行分
区并存储到若干台单独的计算机上。
管理网络中跨多台计算机存储的文件系统称为分布式文件系统。
该系统架构于网络之上,势必会引入网络编程的复杂性,因此分布式文件系统比普通磁盘文件系统更为复杂。
例如,使文件系统能够容忍节点故障且不丢失任何数据,就是一个极大的挑战。

Hadoop自带HDFS的分布式文件系统,
- Hadoop Distributed Filesystem
在非正式文档或旧文档以及配置文件中,有时也简称DFS
HDFS是 Hadoop的旗舰级文件系统,也是本章重点,
- 但实际上Hadoop是一个综合性的文件系统抽象,
- 因此接下来我们将了解将Hadoop与其他存储系统集成的途径,
- 例如本地文件系统和 Amazon S3系统。

3.1 HDFS的设计

HDFS以流式数据访问模式存储超大文件,运行于商用硬件集群
超大文件“超大文件”在这里指有几百M、百G甚至百T大小的文件。
- 目前有存储PB级数据的Hadoop集群 $^1$

在这里插入图片描述

流式数据访问
HDFS的构建思路:一次写入、多次读取最高效
- 数据集通常由数据源生成或从数据源复制,接着长时间在此数据集上进行分析
- 每次分析都将涉及该数据集大部分数据甚至全部,
  - 因此读取整个数据集的时间延退比读取第一条记录的时间延迟更重要。

商用硬件
Hadoop不需运行在昂贵且高可靠的硬件
它是设计运行在商用硬件(普通硬件 $^2$ 的集群上的,因此至少对庞大的集群来说,节点故障几率非常高
HDFS遇到上述故障时,能继续运行且不让用户察觉到明显的中断
那些不适合在HDFS上运行的应用也值得研究。
- 目前HDFS对某些应用领域并不适合,以后可能会有所改进。

要求低时延迟数据访问的应用,例如几十毫秒范围,不适合在HDFS上运行。
HDFS是为高数据吞吐量应用优化的,这可能会以提高时间延迟为代价。
目前,对于低延退的访问,Hbase(参见第20章)是更好的选择。

大量的小文件
namenode将文件系统的元数据存储在内存,
- 因此该文件系统所能存储的文件总数受限于namenode的内存容量
毎个文件、目录和数据块的存储信息约150字节
如果有一百万个文件,且每个文件占一个数据块,至少要300MB内存
上百万个文件可行,但数十亿个文件就超出当前硬件能力 $^3$

多用户写入
任意修改文件HDFS中的文件写入只支持单个写入者,且写操作总“只添加”方式在文件末尾写数据。
它不支持多个写入者的操作,也不支持在文件的任意位置修改。
可能以后会支持这些操作,但它们相对比较低效。

在这里插入图片描述

3.2HDFS的概念

3.2.1数据块

fgh431

发布了558 篇原创文章 · 获赞 295 · 访问量 8万+

他的留言板关注

猜你喜欢

转载自blog.csdn.net/zhoutianzi12/article/details/105396399

3 Hadoop分布式文件系统

第3章:Hadoop分布式文件系统(2)

分布式文件系统（3）

Hadoop基础教程-第3章 HDFS：分布式文件系统（3.1 HDFS概述）

Hadoop基础教程-第3章 HDFS：分布式文件系统（3.2 HDFS文件读写）

分布式系统＜3＞

Hadoop基础教程-第3章 HDFS：分布式文件系统（3.5 HDFS基本命令）（草稿）

Hadoop基础教程-第3章 HDFS：分布式文件系统（3.4 HDFS集群模式）

Hadoop基础教程-第3章 HDFS：分布式文件系统（3.3 HDFS参数解读）

Lesson3 Hadoop 伪分布式模式集群运行情况的查看、HDFS文件系统的简单管理操作

大数据学习3——分布式文件系统HDFS

分布式存储系统学习笔记(二)—分布式文件系统(3)—Facebook文件系统(Haystack)

zabbix分布式监控系统（3）

Hadoop3-分布式模式安装

Hadoop---(3)Zookeeper（分布式协调服务）

hadoop3伪分布式安装

Mac部署hadoop3(伪分布式)

搭建Hadoop完全分布式集群3

spark分布式环境搭建(3) hadoop分布式环境安装

1）HDFS分布式文件系统 2）HDFS核心设计 3 ）HDFS体系结构

Go IPFS v0.4.16 rc3 发布，点对点分布式文件系统

【FastDFS分布式文件系统】3.FastDFS部署案例(上)

EOS代码分析3 EOS存储机制的IPFS分布式文件系统

MFS分布式文件系统【3】存储节点 CHUNK SERVER 部署

【分布式】hadoop安装篇（7）Hadoop 3的伪分布模式安装

Hadoop分布式文件系统HDFS

Hadoop分布式文件系统--HDFS

Hadoop分布式文件系统

分布式文件系统hadoop

Hadoop 分布式文件系统

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)