Spark概述详解

Spark概述详解

1. spark概念

官网:http://spark.apache.org,Spark是一种快速、通用、可扩展的大数据分析引擎。
Spark生态系统已经发展成为一个包含多个子项目的集合,其中包含SparkSQL、Spark Streaming、GraphX、MLlib等子项目,Spark是基于内存计算的大数据并行计算框架。Spark基于内存计算,提高了在大数据环境下数据处理实时性,同时保证了高容错性和高可伸缩性,允许用户将Spark部署在大量廉价硬件之上,形成集群。

2.spark特点

  1. 中间结果输出:基于MapReduce的计算引擎通常会将中间结果输出到磁盘上,进行存储和容错。出于任务管道承接的,考虑,当一些查询翻译到MapReduce任务时,往往会产生多个Stage,而这些串联的Stage又依赖于底层文系统(如HDFS)来存储每一个Stage的输出结果。Spark是MapReduce的替代方案,而且兼容HDFS、Hive,可融入Hadoop的生态系统,以弥补MapReduce的不足。

  2. 快: 与Hadoop的MapReduce相比,Spark基于内存的运算要快100倍以上,基于硬盘的运算也要快10倍以上。Spark实现了高效的DAG执行引擎,可以通过基于内存来高效处理数据流。

  3. 易用:Spark支持Java、Python和Scala的API,还支持超过80种高级算法,使用户可以快速构建不同的应用。

  4. 通用:Spark提供了统一的解决方案。Spark可以用于批处理、交互式查询(Spark SQL)、实时流处理(Spark Streaming)、机器学习(Spark MLlib)和图计算(GraphX)。

  5. 兼容性:Spark可以非常方便地与其他的开源产品进行融合。比如,Spark可以使用Hadoop的YARN和Apache Mesos作为它的资源管理和调度器,并且可以处理所有Hadoop支持的数据,包括HDFS、HBase和Cassandra等。

3.核心组件

SparkCore: 核心部分 包含Spark基本功能(任务调度 内存管理 容错机制等)

SparkSQL: Spark中交互式处理模块

SparkStreaming: Spark中流式数据处理的模块

SparkMLib:Spark机器学习相关模块 => Mahout

SparkGraphX: Spark中图形计算的模块

SparkManagers:集群管理 (HadoopYARN、ApacheMesos、Spark自带的单独调度器)

4. spark与mapreduce的比较

MapReduce: 分布式的计算框架 -> Hive问题:shuffle:大文件的排序+读写磁盘+网络传输 => 比较慢只有两种执行算子/API: MapTask(数据转换+过滤)和ReduceTask(数据聚合) ==> 定制化稍微有点差。不适合迭代式的计算。对于需要快速执行的产生结果的应用场景不适合。Spark:为了解决MapReduce执行慢、不适合迭代执行的问题。
Spark计算的核心思路就是将数据集缓存在内存中加快读取速度,Spark的中间结果放到内存中,一次创建数据集,可以多次迭代运算,减少IOK开销。适合运算比较多的ML和DL。


Hadoop MapReduce计算模型是磁盘级的计算,下图是Hadoop权威指南上很经典的一幅关于MapReduce计算过程的截图


Hadoop MapReduce将每个计算任务都划分为Map、Shuffle和Reduce三个阶段,Map的输入和输出要读写磁盘,Reduce的输入和输出也要读写磁盘,这对于通过递归迭代算法来解决的问题,如机器学习和数据挖掘,无疑在性能上产生很大的影响。

Spark内存级计算模型
Spark的DAG(有向无环图作业),Spark实现了非常精致的作业调度系统,这是Spark的精髓所在.

5. 安装spark集群

  1. 下载spark.tgz安装包,解压到安装目录
  2. 进入到spark安装目录,进入conf目录并重命名并修改spark-env.sh.template文件
    修改文件:mv spark-env.sh.template spark-env.sh
    vi spark-evn.sh
    在该配置文件中添加如下配置
    export JAVA_HOME=/usr/java/jdk1.7.0_45
    export SPARK_MASTER_IP=master
    export SPARK_MASTER_PORT=7077
    保存退出
  3. 重命名并修改slaves.template文件 mv slaves.template slaves
    在该文件中添加子节点所在的位置(Worker节点)vi slaves
    slave1
    slave2
    slave3
    保存退出,将配置好的Spark拷贝到其他节点上
  4. Spark集群配置完毕,目前是1个Master,3个Work,在master上启动Spark集群
    启动:/usr/local/spark-1.5.2-bin-hadoop2.6/sbin/start-all.sh
    启动后执行jps命令,主节点上有Master进程,其他子节点上有Work进行,
    登录Spark管理界面查看集群状态(主节点):http://master:8080/
  5. 有一个很大的问题,那就是Master节点存在单点故障,要解决此问题,就要借助zookeeper,
    并且启动至少两个Master节点来实现高可靠,配置方式比较简单:
    5.1 Spark集群规划:node1,node2是Master;node3,node4,node5是Worker
    安装配置zk集群,并启动zk集群
    5.2 修改配置文件spark-env.sh,在该配置文件中删掉SPARK_MASTER_IP并添加如下配置
    export SPARK_DAEMON_JAVA_OPTS=”-Dspark.deploy.recoveryMode=ZOOKEEPER
    -Dspark.deploy.zookeeper.url=zk1,zk2,zk3 -Dspark.deploy.zookeeper.dir=/spark”
    5.3 在node1节点上修改slaves配置文件内容指定worker节点
    5.4 在node1上执行sbin/start-all.sh脚本,然后在node2上执行sbin/start-master.sh启动Master

6. spark shell

  1. spark-shell是Spark自带的交互式Shell程序,方便用户进行交互式编程,用户可以在该命令行下用scala编写spark程序。
  2. 启动spark shell
    /usr/local/spark-1.5.2-bin-hadoop2.6/bin/spark-shell \
    –master spark://node1.itcast.cn:7077 \指定Master的地址
    –executor-memory 2g \指定每个worker可用内存为2G
    –total-executor-cores 2 \指定整个集群使用的cup核数为2个
  3. Spark Shell中已经默认将SparkContext类初始化为对象sc。用户代码如果需要用到,则直接应用sc即可
  4. 执行spark程序
    /usr/local/spark-1.5.2-bin-hadoop2.6/bin/spark-submit \
    –class org.apache.spark.examples.SparkPi \
    –master spark://node1.itcast.cn:7077 \
    –executor-memory 1G \
    –total-executor-cores 2 \
    /usr/local/spark-1.5.2-bin-hadoop2.6/lib/spark-examples-1.5.2-hadoop2.6.0.jar \100

7.总结

猜你喜欢

转载自blog.csdn.net/wtzhm/article/details/80722084