大数据技术原理与应用期末复习知识点-第三章-分布式文件系统HDFS

前言：马上期末考试了，瑟瑟发抖~
总结了一些大数据技术原理和应用的知识点，如有错误，请求指正~
大数据技术原理与应用期末复习前两章知识点

1、HDFS集群采用主从结构，节点主要包括名称节点和数据节点
2、对HDFS通信协议的理解错误的是：C
A.名称节点和数据节点之间使用数据节点协议进行交互。
B.客户端通过一个可配置的端口向名称节点主动发起TCP连接，并使用客户端协议与名称节点进行交互。
C.HDFS通信协议都是构建在IoT协议基础之上的。（X）
HDFS通信协议都是构建在TCP/IP基础之上的。
D.客户端与数据节点的交互是通过远程过程调用（RPC）来实现的。
3、采用多副本冗余存储的优势：

保证数据可靠性
加快数据传输速度
容易检查数据错误

4、启动和关闭HDFS的命令：

#启动
start-dfs.sh
#关闭
stop-dfs.sh

5、关于分布式文件系统HDFS的描述正确的是：D
A.分布式文件系统HDFS是Google Bigtable的一种开源实现。（X）
B.分布式文件系统HDFS比较适合存储大量零碎的小文件。（X）
HDFS无法高效存储大量小文件
C.分布式文件系统HDFS是一种关系型数据库。（X）
D.分布式文件系统HDFS是谷歌分布式文件系统GFS的一种开源实现。
6、查看HDFS系统版本的Shell命令是：

hdfs version

7、查看HDFS系统运行状态的Shell命令是：

hdfs dfsadmin -report

8、HDFS的名称节点保存两个核心的数据结构是：FsImage和EditLog
9、采用HDFS Java API进行程序设计时，创建FileSystem对象的语句是：

FileSystem fs = FileSystem.get(uri,conf)

10、关于名称节点：

名称节点的数据保存在内存中。
名称节点作为中心服务器，负责管理文件系统的命名空间及客户端对文件的访问。
名称节点通常用来保存元数据。
11、关于数据节点：
数据节点的数据保存在磁盘中。
数据节点用来存储具体的文件内容。
数据节点在名称节点的统一调用下进行数据块的创建、删除和复制等操作。
数据节点可以有多个。

12、HDFS只设置唯一一个名称节点带来的局限性：

隔离问题
命名空间的限制
集群的可用性
性能的瓶颈
13、HDFS中的NameNode节点用于存放元数据，数据内容包含：
文件与数据块的映射表
数据块与数据节点的映射表
14、对HDFS内的文件进行操作，说法正确的是：（AC）
A.HDFS提供了Shell的操作接口。
B.不允许对文件进行列表查看。（X）
C.文件操作命令与Linux相似。
D.采用Windows系统对文件进行操作。（X）
15、HDFS与传统数据存储对比，主要的特点：
数据冗余，硬件容错
流式的数据访问
适合存储大量大文件

16、Hadoop存储系统HDFS的体系结构的设计目标：

兼容廉价的硬件设备，自动检测处理硬件错误
流数据读写
大数据集
简单的文件模型，“一次写入，多次读取”
强大的跨平台兼容性
转移计算，不移动数据位置

17、HDFS的局限性：

不适合低延迟数据访问
无法高效存储大量小文件
不支持多用户写入及任意修改文件

18、HDFS中第二名称节点的作用是：

名称节点的冷备份
合并FsImage和EditLog文件
作为名称节点的检查点
19、HDFS的命名空间包括目录、文件和块。
20、Hadoop存储系统HDFS的文件是分块存储的，每个文件块默认大小是64MB。
21、HDFS副本的放置策略：
（1）如果是在集群内发起写操作请求，则把第一个副本放置在发起写操作请求的数据节点上。如果是在集群外发起写操作请求，则从集群内部挑选一台磁盘空间较为充足、CPU不太忙的数据节点，作为第一个副本的存放地。
（2）第2个副本放在与第1个副本不同的机架的数据节点上。
（3）第3个副本放在与第一个副本相同的机架的数据节点上。
（4）如果还有更多的副本，则继续从集群中随机选择数据节点进行存放。

大数据技术原理与应用期末复习知识点-第三章-分布式文件系统HDFS

猜你喜欢