Spark概述详解

1. spark概念

官网：http://spark.apache.org，Spark是一种快速、通用、可扩展的大数据分析引擎。
Spark生态系统已经发展成为一个包含多个子项目的集合，其中包含SparkSQL、Spark Streaming、GraphX、MLlib等子项目，Spark是基于内存计算的大数据并行计算框架。Spark基于内存计算，提高了在大数据环境下数据处理实时性，同时保证了高容错性和高可伸缩性，允许用户将Spark部署在大量廉价硬件之上，形成集群。

2.spark特点

中间结果输出：基于MapReduce的计算引擎通常会将中间结果输出到磁盘上，进行存储和容错。出于任务管道承接的，考虑，当一些查询翻译到MapReduce任务时，往往会产生多个Stage，而这些串联的Stage又依赖于底层文系统（如HDFS）来存储每一个Stage的输出结果。Spark是MapReduce的替代方案，而且兼容HDFS、Hive，可融入Hadoop的生态系统，以弥补MapReduce的不足。
快：与Hadoop的MapReduce相比，Spark基于内存的运算要快100倍以上，基于硬盘的运算也要快10倍以上。Spark实现了高效的DAG执行引擎，可以通过基于内存来高效处理数据流。
易用：Spark支持Java、Python和Scala的API，还支持超过80种高级算法，使用户可以快速构建不同的应用。
通用：Spark提供了统一的解决方案。Spark可以用于批处理、交互式查询（Spark SQL）、实时流处理（Spark Streaming）、机器学习（Spark MLlib）和图计算（GraphX）。
兼容性：Spark可以非常方便地与其他的开源产品进行融合。比如，Spark可以使用Hadoop的YARN和Apache Mesos作为它的资源管理和调度器，并且可以处理所有Hadoop支持的数据，包括HDFS、HBase和Cassandra等。

3.核心组件

SparkCore: 核心部分包含Spark基本功能（任务调度内存管理容错机制等）

SparkSQL: Spark中交互式处理模块

SparkStreaming: Spark中流式数据处理的模块

SparkMLib：Spark机器学习相关模块 => Mahout

SparkGraphX: Spark中图形计算的模块

SparkManagers：集群管理（HadoopYARN、ApacheMesos、Spark自带的单独调度器）

4. spark与mapreduce的比较

MapReduce: 分布式的计算框架 -> Hive问题：shuffle：大文件的排序+读写磁盘+网络传输 => 比较慢只有两种执行算子/API: MapTask(数据转换+过滤)和ReduceTask(数据聚合) ==> 定制化稍微有点差。不适合迭代式的计算。对于需要快速执行的产生结果的应用场景不适合。Spark：为了解决MapReduce执行慢、不适合迭代执行的问题。
Spark计算的核心思路就是将数据集缓存在内存中加快读取速度，Spark的中间结果放到内存中，一次创建数据集，可以多次迭代运算，减少IOK开销。适合运算比较多的ML和DL。

Hadoop MapReduce计算模型是磁盘级的计算，下图是Hadoop权威指南上很经典的一幅关于MapReduce计算过程的截图

Hadoop MapReduce将每个计算任务都划分为Map、Shuffle和Reduce三个阶段，Map的输入和输出要读写磁盘，Reduce的输入和输出也要读写磁盘，这对于通过递归迭代算法来解决的问题，如机器学习和数据挖掘，无疑在性能上产生很大的影响。

Spark内存级计算模型
Spark的DAG(有向无环图作业)，Spark实现了非常精致的作业调度系统，这是Spark的精髓所在.

5. 安装spark集群

下载spark.tgz安装包，解压到安装目录
进入到spark安装目录，进入conf目录并重命名并修改spark-env.sh.template文件
修改文件：mv spark-env.sh.template spark-env.sh
vi spark-evn.sh
在该配置文件中添加如下配置
export JAVA_HOME=/usr/java/jdk1.7.0_45
export SPARK_MASTER_IP=master
export SPARK_MASTER_PORT=7077
保存退出
重命名并修改slaves.template文件 mv slaves.template slaves
在该文件中添加子节点所在的位置（Worker节点）vi slaves
slave1
slave2
slave3
保存退出,将配置好的Spark拷贝到其他节点上
Spark集群配置完毕，目前是1个Master，3个Work，在master上启动Spark集群
启动：/usr/local/spark-1.5.2-bin-hadoop2.6/sbin/start-all.sh
启动后执行jps命令，主节点上有Master进程，其他子节点上有Work进行，
登录Spark管理界面查看集群状态（主节点）：http://master:8080/
有一个很大的问题，那就是Master节点存在单点故障，要解决此问题，就要借助zookeeper，
并且启动至少两个Master节点来实现高可靠，配置方式比较简单：
5.1 Spark集群规划：node1，node2是Master；node3，node4，node5是Worker
安装配置zk集群，并启动zk集群
5.2 修改配置文件spark-env.sh，在该配置文件中删掉SPARK_MASTER_IP并添加如下配置
export SPARK_DAEMON_JAVA_OPTS=”-Dspark.deploy.recoveryMode=ZOOKEEPER
-Dspark.deploy.zookeeper.url=zk1,zk2,zk3 -Dspark.deploy.zookeeper.dir=/spark”
5.3 在node1节点上修改slaves配置文件内容指定worker节点
5.4 在node1上执行sbin/start-all.sh脚本，然后在node2上执行sbin/start-master.sh启动Master

6. spark shell

spark-shell是Spark自带的交互式Shell程序，方便用户进行交互式编程，用户可以在该命令行下用scala编写spark程序。
启动spark shell
/usr/local/spark-1.5.2-bin-hadoop2.6/bin/spark-shell \
–master spark://node1.itcast.cn:7077 \指定Master的地址
–executor-memory 2g \指定每个worker可用内存为2G
–total-executor-cores 2 \指定整个集群使用的cup核数为2个
Spark Shell中已经默认将SparkContext类初始化为对象sc。用户代码如果需要用到，则直接应用sc即可
执行spark程序
/usr/local/spark-1.5.2-bin-hadoop2.6/bin/spark-submit \
–class org.apache.spark.examples.SparkPi \
–master spark://node1.itcast.cn:7077 \
–executor-memory 1G \
–total-executor-cores 2 \
/usr/local/spark-1.5.2-bin-hadoop2.6/lib/spark-examples-1.5.2-hadoop2.6.0.jar \100