大数据技术原理与应用期末复习知识点-第三章-分布式文件系统HDFS

前言:马上期末考试了,瑟瑟发抖~
总结了一些大数据技术原理和应用的知识点,如有错误,请求指正~
大数据技术原理与应用期末复习前两章知识点

1、HDFS集群采用主从结构,节点主要包括名称节点数据节点
2、对HDFS通信协议的理解错误的是:C
A.名称节点和数据节点之间使用数据节点协议进行交互。
B.客户端通过一个可配置的端口向名称节点主动发起TCP连接,并使用客户端协议与名称节点进行交互。
C.HDFS通信协议都是构建在IoT协议基础之上的。(X
HDFS通信协议都是构建在TCP/IP基础之上的。
D.客户端与数据节点的交互是通过远程过程调用(RPC)来实现的。
3、采用多副本冗余存储的优势:

  • 保证数据可靠性
  • 加快数据传输速度
  • 容易检查数据错误

4、启动和关闭HDFS的命令:

#启动
start-dfs.sh
#关闭
stop-dfs.sh

5、关于分布式文件系统HDFS的描述正确的是:D
A.分布式文件系统HDFS是Google Bigtable的一种开源实现。(X
B.分布式文件系统HDFS比较适合存储大量零碎的小文件。(X
HDFS无法高效存储大量小文件
C.分布式文件系统HDFS是一种关系型数据库。(X
D.分布式文件系统HDFS是谷歌分布式文件系统GFS的一种开源实现。
6、查看HDFS系统版本的Shell命令是:

hdfs version

7、查看HDFS系统运行状态的Shell命令是:

hdfs dfsadmin -report

8、HDFS的名称节点保存两个核心的数据结构是:FsImageEditLog
9、采用HDFS Java API进行程序设计时,创建FileSystem对象的语句是:

FileSystem fs = FileSystem.get(uri,conf)

10、关于名称节点:

  • 名称节点的数据保存在内存中。
  • 名称节点作为中心服务器,负责管理文件系统的命名空间及客户端对文件的访问。
  • 名称节点通常用来保存元数据。
    11、关于数据节点:
  • 数据节点的数据保存在磁盘中。
  • 数据节点用来存储具体的文件内容。
  • 数据节点在名称节点的统一调用下进行数据块的创建、删除和复制等操作。
  • 数据节点可以有多个。

12、HDFS只设置唯一一个名称节点带来的局限性:

  • 隔离问题
  • 命名空间的限制
  • 集群的可用性
  • 性能的瓶颈
    13、HDFS中的NameNode节点用于存放元数据,数据内容包含:
  • 文件与数据块的映射表
  • 数据块与数据节点的映射表
    14、对HDFS内的文件进行操作,说法正确的是:(AC)
    A.HDFS提供了Shell的操作接口。
    B.不允许对文件进行列表查看。(X
    C.文件操作命令与Linux相似。
    D.采用Windows系统对文件进行操作。(X
    15、HDFS与传统数据存储对比,主要的特点:
  • 数据冗余,硬件容错
  • 流式的数据访问
  • 适合存储大量大文件

16、Hadoop存储系统HDFS的体系结构的设计目标:

  • 兼容廉价的硬件设备,自动检测处理硬件错误
  • 流数据读写
  • 大数据集
  • 简单的文件模型,“一次写入,多次读取”
  • 强大的跨平台兼容性
  • 转移计算,不移动数据位置

17、HDFS的局限性:

  • 不适合低延迟数据访问
  • 无法高效存储大量小文件
  • 不支持多用户写入及任意修改文件

18、HDFS中第二名称节点的作用是:

  • 名称节点的冷备份
  • 合并FsImage和EditLog文件
  • 作为名称节点的检查点
    19、HDFS的命名空间包括目录、文件和块。
    20、Hadoop存储系统HDFS的文件是分块存储的,每个文件块默认大小是64MB
    21、HDFS副本的放置策略:
    (1)如果是在集群内发起写操作请求,则把第一个副本放置在发起写操作请求的数据节点上。如果是在集群外发起写操作请求,则从集群内部挑选一台磁盘空间较为充足、CPU不太忙的数据节点,作为第一个副本的存放地。
    (2)第2个副本放在与第1个副本不同的机架的数据节点上。
    (3)第3个副本放在与第一个副本相同的机架的数据节点上。
    (4)如果还有更多的副本,则继续从集群中随机选择数据节点进行存放。

猜你喜欢

转载自blog.csdn.net/qq_45701130/article/details/121897566
今日推荐