Spark 学习笔记 1

Spark 是什么?

Spark 是一种通用的大数据计算框架,正如传统大数据技术 Hadoop 的 MapReduce、Hive 引擎,以及 Storm 流式实时计算引擎等。Spark 包含了大数据领域常见的各种计算框架:比如 Spark Core 用于离线计算,Spark SQL 用于交互式查询,Spark Streaming 用于实时流式计算,Spark MLlib 用于机器学习,Spark GraphX 用于图计算。

Spark 主要用于大数据的计算,而 Hadoop 以后主要用于大数据的存储(比如 HDFS、Hive、HBase 等),以及资源调度(Yarn)。

Spark + Hadoop 的组合,是未来大数据领域最热门的组合,也是最有前景的组合。

Hadoop 架构

Hadoop 架构

Hadoop 包括 HDFS 存储系统 和 MapReduce 计算框架 两部分,Hive 是针对大数据利用 SQL 的查询框架

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/lvoo86/article/details/85954692