Spark学习笔记（一）：Spark概述与运行原理

最近的项目数据太大，小周终于也投入了大数据的怀抱，开始了Spark编程学习之路，被迫营业

系列博客是学习厦门大学林子雨老师spark编程基础课程的笔记，方便回顾

windows环境可以参考这里Pyspark配置

Spark概述
Spark最初由美国加州大学伯克利分校（UC Berkeley）的AMP实验室于2009年开发，是基于内存计算的大数据并行计算框架，可用于构建大型的、低延迟的数据分析应用程序
2013年Spark加入Apache孵化器项目后发展迅猛，如今已成为Apache软件基金会最重要的三大分布式计算系统开源项目之一（Hadoop、Spark、Storm）
Spark在2014年打破了Hadoop保持的基准排序纪录

支持多语言

大数据主要的关键技术基础是分布式存储和分布式处理

Hadoop生态通过MapReduce实现数据的分布式处理，而Spark是用来代替MapReduce的一种更高效的组件，Spark只是代替了MapReduce的分布式处理，而分布式存储目前的主流框架仍是基于Hadoop生态中的HDFS组件。

使用Hadoop进行迭代计算（mapreduce）非常耗资源

Spark将数据载入内存后，之后的迭代计算都可以直接使用内存中的中间结果作运算，避免了从磁盘中频繁读取数据

Spark会取代Hadoop吗？

Spark和Hadoop生态系统共存共荣

Hadoop包括两大核心：HDFS和MapReduce

Spark作为计算框架，与MapReduce是对等的

谈到“取代”，Spark应该是取代MapReduce，而不是整个Hadoop

Spark借助于Hadoop的HDFS、HBase等来完成数据的存储，然后，由Spark完成数据的计算

Spark运行基本流程

• RDD ： Resillient Distributed Dataset （弹性分布式数据集），分布式内存的一个抽象概念，提供了一种高度受限的共享内存模型

• DAG ： Directed Acyclic Graph （有向无环图），反映 RDD 之间的依赖关系

• Executor ：运行在工作节点（ WorkerNode ）的一个进程，负责运行 Task

• 应用（ Application）：用户编写的 Spark 应用程序

• 任务（ Task ）：运行在 Executor 上的工作单元

• 作业（ Job ）：一个作业包含多个 RDD 及作用于相应 RDD 上的各种操作

• 阶段（ Stage ）：是作业的基本调度单位，一个作业会分为多组任务，每组任务被称为阶段，或者也被称为任务集合，代表了一组关联的、相互之间没有 Shuffle 依赖关系的任务组成的任务集

一个应用由一个Driver和若干个作业构成，一个作业由多个阶段构成，一个阶段由多个没有Shuffle关系的任务组成。
当执行一个应用时，Driver会向集群管理器申请资源，启动Executor，并向Executor发送应用程序代码和文件，然后在Executor上执行任务，运行结束后，执行结果会返回给Driver，或者写到HDFS或者其他数据库中