大数据学习之SPARK计算天下

学习大数据技术，SPARK无疑是绕不过去的技术之一，它的重要性不言而喻，本文将通过提问的形式围绕着SPARK进行介绍，希望对大家有帮助，与此同时，感谢为本文提供素材的科多大数据的武老师。

为了辅助大家更好去了解大数据技术，本文集中讨论Spark的一系列技术问题，大家在学习过程中如果遇到困难，可以留言互动，我都将「知无不言，言无不尽」！

//话题1：MapReduce的局限性有哪些？

回复：

① MapReduce框架局限性

它仅支持Map和Reduce两种操作，而且处理效率低效，具体有这四点：

a. Map中间结果写磁盘， Reduce写HDFS，多个MR之间通过HDFS交换数据；

b. 任务调度和启动开销大；

c. 无法充分利用内存；

d. Map端和Reduce端均需要排序；

而且它不适合迭代计算（如机器学习、图计算等），交互式处理（数据挖掘）和流式处理（点击日志分析）。

② MapReduce编程不够灵活，最好尝试scala函数式编程。

//话题2：现有的各种计算框架有哪些？

回复：

① 批处理有MapReduce、Hive、Pig

② 流式计算有Storm

③ 交互式计算有Impala、Presto

而Spark是一种灵活的框架，可同时进行批处理、流式计算、交互式计算！

//话题3：Spark到底有哪些特点？

回复：

高效（比MapReduce快10~100倍）性

① 内存计算引擎，提供Cache机制来支持需要反复迭代计算或者多次数据共享，减少数据读取的IO开销

② DAG引擎，减少多次计算之间中间结果写到HDFS的开销

③ 使用多线程池模型来减少task启动开稍， shuffle过程中避免

④ 不必要的sort操作以及减少磁盘IO操作

易用性

① 提供了丰富的API，支持Java， Scala， Python和R四种语言

② 代码量比MapReduce少2~5倍

能与Hadoop集成

① 读写HDFS/Hbase

② 与YARN集成

//话题4：Spark中的RDD如何理解？

回复：

RDD(Resilient Distributed Datasets)，弹性分布式数据集，有以下几个特点：

① 分布在集群中的只读对象集合（由多个Partition构成）

② 可以存储在磁盘或内存中（多种存储级别）

③ 通过并行“转换” 操作构造

④ 失效后自动重构

//话题5：Spark中的RDD有哪些操作？

回复：

Transformation，可通过程序集合或者Hadoop数据集构造一个新的RDD，通过已有的RDD产生新的RDD，举例： map，filter，groupBy，reduceBy；

Action，通过RDD计算得到一个或者一组值，举例：count，reduce，saveAsTextFile；

而它们的接口定义方式不同，Transformation： RDD[X] -> RDD[Y]；Action: RDD[X] -> Z (Z不是一个RDD, 可能是基本类型，数组等)

同时，对于惰性执行（ Lazy Execution）也有区别，Transformation只会记录RDD转化关系，并不会触发计算；Action是触发程序执行（分布式）的算子；

//话题6：Spark提交任务执行的命令？

回复：

spark-submit\

--masteryarn-cluster\

--class com.xxx.examples.WordCount\

--driver-memory 2g\

--driver-cores 1\

--executor-memory 3g\

--executor-cores 3\

--num-executors 3

//话题7：Spark的运行模式？

回复：

① local（本地模式），单机运行，通常用于测试。

② standalone（独立模式），独立运行在一个集群中。

③ YARN/mesos，运行在资源管理系统上，比如YARN或mesos。其中Spark On YARN存在两种模式yarn-client和yarn-cluster。

//话题8：Spark的本地模式怎么理解？

回复：

将Spark应用以多线程方式，直接运行在本地，便于调试。本地模式分类如下：

① local：只启动一个executor

② local[K]：启动K个executor

③ local[*]：启动跟cpu数目相同的executor

//话题9：Spark On Yarn模式的运行机制？

回复：

追踪一个应用程序运行过程

bin/spark-submit --master yarn-cluster --class …

core/src/main/scala/org/apache/spark/deploy/SparkSubmit.scala

yarn/src/main/scala/org/apache/spark/deploy/yarn/Client.scala

yarn/src/main/scala/org/apache/spark/deploy/yarn/ApplicationMaster.scala

core/src/main/scala/org/apache/spark/SparkContext.scala

core/src/main/scala/org/apache/spark/executor/Executor.scala

大数据学习之SPARK计算天下

猜你喜欢