大数据技术原理与应用期末复习习题-前两章 大数据概述及Hadoop概述

链接:大数据技术原理与应用期末复习第三章知识点
1、人类社会的数据产生方式大致经历的三个阶段:
运营式系统阶段——用户原创内容阶段——感知式系统阶段。
2、大数据的典型特征(4V):

  • 数据量大
  • 数据类型繁多
  • 处理速度快
  • 价值密度低

3、大数据对思维方式的影响:

  • 全样而非抽样
  • 效率而非精确
  • 相关而非因果

4、大数据的计算模式:

  • 批处理计算(MapReduce、Spark等)
  • 流计算(Flink、Storm、Streams等)
  • 图计算(GraphX等)
  • 查询分析计算(Hive等)

5、云计算的三种典型服务模式:

  • 基础设施即服务(IaaS):将基础设施(计算资源和存储)作为服务出租。
  • 平台即服务(PaaS):操作系统和围绕特定应用的必须的服务。
  • 软件即服务(SaaS):把软件作为服务出租。

6、云计算的关键技术:

  • 虚拟化
  • 分布式存储
  • 分布式计算
  • 多租户

7、数量级之间换算单位:
1EB=2 ^ 10PB = 2 ^ 10TB=2 ^ 10GB=2 ^ 10MB = 2 ^10KB =2 ^10B

8、在科学研究上先后经历的四种范式:

  • 实验科学
  • 理论科学
  • 计算科学
  • 数据密集型科学

判断
1、物联网与云计算、大数据是相辅相成的关系,物联网就是指无线传感器。(X)
解析:
物联网是物物相连的互联网,是互联网的延伸,利用局部网络或互联网等通信技术把传感器、控制器、计算机、人员和物等通过新的方式连在一起,形成人与物、物与物相连,实现信息化和远程管理控制。
2、MapReduce是分布式并行计算框架,其计算模式属于流计算,实时性好。(X)
解析:
MapReduce属于批处理计算。

第二章

1、启动hadoop所有进程的命令:
start-all.sh
2、关于Hadoop的说法:

  • Hadoop的核心是HDFS和MapReduce。
  • Hadoop是基于Java语言开发的,支持多种编程语言。
  • Hadoop MapReduce是针对谷歌MapReduce的开源实现,通常用于大规模数据集的并行计算。

3、Hadoop的特性:

  • 高可靠性
  • 高效性
  • 高可扩展性
  • 高容错性
  • 成本低
  • 运行在Linux操作系统上
  • 支持多种编程语言

4、名次解释:

  • HDFS:分布式文件系统,是Hadoop项目的两大核心之一,是谷歌GFS的开源实现。
  • Hive:一个基于Hadoop的数据仓库工具,用于对Hadoop文件中的数据集进行数据整理、特殊查询和分析存储。
  • HBase:提供高可靠性、高性能、分布式的列式数据库,是谷歌BigTable的开源实现。
  • Zookeeper:针对谷歌Chubby的一个开源实现,是高校可靠的协同工作系统。

5、Hadoop是Apache公司旗下的分布式计算平台。
6、Hadoop项目结构中,YARN负责资源管理和调度。
7、Hadoop的生态技术:

  • HDFS
  • HBase
  • MapReduce
  • Hive
  • Pig
  • Mahout
  • Zookeeper
  • Flume
  • Sqoop
  • Ambari

8、Hadoop生态系统的优势包含:

  • 高扩展
  • 低成本
  • 开源工具成熟
  • 高容错性

9、大数据技术方案为了简化并行分布式计算,采用MapReduce软件模块进行处理。

判断题
1、Hadoop是IBM公司开发的一款商用大数据软件。(X)
解析:
Hadoop是Apache公司旗下的分布式计算平台。
2、Hadoop是基于Java语言开发的,具有很好的跨平台特性。(√)
3、Hadoop是跨平台的,安装Hadoop时没必要安装JDK。(X)
解析:
Hadoop本身是使用Java编写的,因此Hadoop的开发和运行都需要Java的支持。

猜你喜欢

转载自blog.csdn.net/qq_45701130/article/details/121795609