大数据技术原理与应用期末复习习题-前两章大数据概述及Hadoop概述

链接：大数据技术原理与应用期末复习第三章知识点
1、人类社会的数据产生方式大致经历的三个阶段：
运营式系统阶段——用户原创内容阶段——感知式系统阶段。
2、大数据的典型特征（4V）：

数据量大
数据类型繁多
处理速度快
价值密度低

3、大数据对思维方式的影响：

全样而非抽样
效率而非精确
相关而非因果

4、大数据的计算模式：

批处理计算（MapReduce、Spark等）
流计算（Flink、Storm、Streams等）
图计算（GraphX等）
查询分析计算（Hive等）

5、云计算的三种典型服务模式：

基础设施即服务（IaaS）:将基础设施（计算资源和存储）作为服务出租。
平台即服务（PaaS）：操作系统和围绕特定应用的必须的服务。
软件即服务（SaaS）：把软件作为服务出租。

6、云计算的关键技术：

虚拟化
分布式存储
分布式计算
多租户

7、数量级之间换算单位：
1EB=2 ^ 10PB = 2 ^ 10TB=2 ^ 10GB=2 ^ 10MB = 2 ^10KB =2 ^10B

8、在科学研究上先后经历的四种范式：

实验科学
理论科学
计算科学
数据密集型科学

判断
1、物联网与云计算、大数据是相辅相成的关系，物联网就是指无线传感器。（X）
解析：
物联网是物物相连的互联网，是互联网的延伸，利用局部网络或互联网等通信技术把传感器、控制器、计算机、人员和物等通过新的方式连在一起，形成人与物、物与物相连，实现信息化和远程管理控制。
2、MapReduce是分布式并行计算框架，其计算模式属于流计算，实时性好。（X）
解析：
MapReduce属于批处理计算。

第二章

1、启动hadoop所有进程的命令：
start-all.sh
2、关于Hadoop的说法：

Hadoop的核心是HDFS和MapReduce。
Hadoop是基于Java语言开发的，支持多种编程语言。
Hadoop MapReduce是针对谷歌MapReduce的开源实现，通常用于大规模数据集的并行计算。

3、Hadoop的特性：

高可靠性
高效性
高可扩展性
高容错性
成本低
运行在Linux操作系统上
支持多种编程语言

4、名次解释：

HDFS：分布式文件系统，是Hadoop项目的两大核心之一，是谷歌GFS的开源实现。
Hive：一个基于Hadoop的数据仓库工具，用于对Hadoop文件中的数据集进行数据整理、特殊查询和分析存储。
HBase：提供高可靠性、高性能、分布式的列式数据库，是谷歌BigTable的开源实现。
Zookeeper:针对谷歌Chubby的一个开源实现，是高校可靠的协同工作系统。

5、Hadoop是Apache公司旗下的分布式计算平台。
6、Hadoop项目结构中，YARN负责资源管理和调度。
7、Hadoop的生态技术：

HDFS
HBase
MapReduce
Hive
Pig
Mahout
Zookeeper
Flume
Sqoop
Ambari

8、Hadoop生态系统的优势包含：

高扩展
低成本
开源工具成熟
高容错性

9、大数据技术方案为了简化并行分布式计算，采用Map和Reduce软件模块进行处理。

判断题
1、Hadoop是IBM公司开发的一款商用大数据软件。（X）
解析：
Hadoop是Apache公司旗下的分布式计算平台。
2、Hadoop是基于Java语言开发的，具有很好的跨平台特性。（√）
3、Hadoop是跨平台的，安装Hadoop时没必要安装JDK。（X）
解析：
Hadoop本身是使用Java编写的，因此Hadoop的开发和运行都需要Java的支持。

大数据技术原理与应用期末复习习题-前两章 大数据概述及Hadoop概述

第二章

猜你喜欢

大数据技术原理与应用期末复习习题-前两章大数据概述及Hadoop概述