九、Spark模块和安装

@Author : By Runsen
@Date : 2020/6/21

作者介绍:Runsen目前大三下学期,专业化学工程与工艺,大学沉迷日语,Python, Java和一系列数据分析软件。导致翘课严重,专业排名中下。.在大学60%的时间,都在CSDN。

在一月到四月都没怎么写博客,因为决定写书,结果出书方说大学生就是一个菜鸟,看我确实还是一个菜鸟,就更新到博客算了。

我把第九章更新到博客上。

9.6 Spark

9.6.1 Spark模块和安装

(1)Spark模块

Apache Spark是一个用于实时处理的开源集群计算框架。 它是Apache软件基金会中最成功的项目。 Spark已成为大数据处理市场的领导者。 在大数据时代中,最重要的莫过于Spark。

摘自Spark官网的定义:Spark是一个快速的、通用的分布式计算系统,提供了高级API,如:Java、Scala、Python和R。Spark的模块图,如下图9-17所示。

  • Spark Core:包含Spark的基本功能;尤其是定义RDD的API、操作以及这两者上的动作。其他Spark的库都是构建在RDD和Spark Core之上的
  • Spark SQL:提供通过Apache Hive的SQL变体Hive查询语言(HiveQL)与Spark进行交互的API。每个数据库表被当做一个RDD,Spark SQL查询被转换为Spark操作。

猜你喜欢

转载自blog.csdn.net/weixin_44510615/article/details/106889059
今日推荐