大数据：HDFS面试题收集（五） - 代码天地

大数据：HDFS面试题收集（五）

其他 2018-05-11 05:11:32 阅读次数: 3

Hdfs 原理

读写过程

https://blog.csdn.net/wypersist/article/details/79797565

存储机制

https://blog.csdn.net/wypersist/article/details/79797569

HDFS FSimage和edit合并过程

https://blog.csdn.net/WYpersist/article/details/80069726

Hdfs 上传文件和下载文件的流程

https://blog.csdn.net/WYpersist/article/details/80044958

Hdfs block size 是128MB,那么300MB的文件大小，如何切分

分成3块。两块分别是128MB，另一块是54MB。

看这两篇文章

https://blog.csdn.net/WYpersist/article/details/80044792

https://blog.csdn.net/WYpersist/article/details/80044776

怎么导数据到hdfs

什么是HDFS，它的存储机制？

HDFS（Hadoop Distributed File System）是Hadoop项目的核心子项目，是分布式计算中数据存储管理的基础，坦白说HDFS是一个不错的分布式文件系统，它有很多的优点，但也存在有一些缺点，包括：不适合低延迟数据访问、无法高效存储大量小文件、不支持多用户写入及任意修改文件。

有一个文件FileA，100M大小。Client将FileA写入到HDFS上。

HDFS按默认配置。

HDFS分布在三个机架上Rack1，Rack2，Rack3。

a. Client将FileA按64M分块。分成两块，block1和Block2;

b. Client向nameNode发送写数据请求，如图蓝色虚线①——>。

c. NameNode节点，记录block信息。并返回可用的DataNode，如粉色虚线②———>。

Block1: host2,host1,host3

Block2: host7,host8,host4

原理：

NameNode具有RackAware机架感知功能，这个可以配置。

若client为DataNode节点，那存储block时，规则为：副本1，同client的节点上；副本2，不同机架节点上；

副本3，同第二个副本机架的另一个节点上；其他副本随机挑选。

若client不为DataNode节点，那存储block时，规则为：副本1，随机选择一个节点上；副本2，不同副本1，机架上；

副本3，同副本2相同的另一个节点上；其他副本随机挑选。

d. client向DataNode发送block1；发送过程是以流式写入。

流式写入过程，

1>将64M的block1按64k的package划分;

2>然后将第一个package发送给host2;

3>host2接收完后，将第一个package发送给host1，同时client想host2发送第二个package；

4>host1接收完第一个package后，发送给host3，同时接收host2发来的第二个package。

5>以此类推，如图红线实线所示，直到将block1发送完毕。

6>host2,host1,host3向NameNode，host2向Client发送通知，说“消息发送完了”。如图粉红颜色实线所示。

7>client收到host2发来的消息后，向namenode发送消息，说我写完了。这样就真完成了。如图黄色粗实线

8>发送完block1后，再向host7，host8，host4发送block2，如图蓝色实线所示。

9>发送完block2后，host7,host8,host4向NameNode，host7向Client发送通知，如图浅绿色实线所示。

10>client向NameNode发送消息，说我写完了，如图黄色粗实线。。。这样就完毕了。

分析，通过写过程，我们可以了解到：

①写1T文件，我们需要3T的存储，3T的网络流量贷款。

②在执行读或写的过程中，NameNode和DataNode通过HeartBeat进行保存通信，确定DataNode活着。

如果发现DataNode死掉了，就将死掉的DataNode上的数据，放到其他节点去。读取时，要读其他节点去。

③挂掉一个节点，没关系，还有其他节点可以备份；甚至，挂掉某一个机架，也没关系；其他机架上，也有备份。

猜你喜欢

转载自blog.csdn.net/wypersist/article/details/80262303

大数据：HDFS面试题收集（五）

大数据面试题(二)----HDFS面试题

大数据：面试题收集（四）

大数据：面试题收集（一）

大数据：Spark 面试题收集

大数据：HBase面试题收集

大数据面试题(五)----HIVE面试题

【图文详细】HDFS面试题：什么是大数据

大数据常见面试题之hdfs

大数据面试题：HDFS存储原理

大数据:zookeeper面试题收集（三）

大数据：MapReduce面试题收集（十一）

大数据面试题知识点分析（五）

【大数据面试题】（五）Spark 相关面试题总结

【大数据面试宝典】第二篇 HDFS 面试题

大数据面试题

大数据面试题！

大数据面试、笔试题收集

【2021持续更新】大数据面试题整理-HDFS篇

HDFS面试题

面试题收集

HDFS面试题：hdfs写数据的流程

大数据面试题(十)----Zookeeper 面试题

大数据面试题(七)----Flume面试题

大数据面试题(六)----HBASE 面试题

大数据面试题(九)----Spark面试题

大数据面试题(四)----YARN面试题

大数据面试题(八)----Kafka面试题

大数据面试题(三)----MapReduce面试题

大数据面试题(一)----HADOOP 面试题

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)