零、本节学习目标

一、有向无环图

DAG（Directed Acyclic Graph）叫做有向无环图，Spark中的RDD通过一系列的转换算子操作和行动算子操作形成了一个DAG。DAG是一种非常重要的图论数据结构。如果一个有向图无法从任意顶点出发经过若干条边回到该点，则这个图就是有向无环图。“4→6→1→2”是一条路径，“4→6→5”也是一条路径，并且图中不存在从顶点经过若干条边后能回到该点。

根据RDD之间依赖关系的不同可将DAG划分成不同的Stage(调度阶段)。对窄依赖来说，RDD分区的转换处理是在一个线程里完成，所以窄依赖会被Spark划分到同一个Stage中；而对宽依赖来说，由于有Shuffle存在，所以只能在父RDD处理完成后，下一个Stage才能开始接下来的计算，因此宽依赖是划分Stage的依据，当RDD进行转换操作，遇到宽依赖类型的转换操作时，就划为一个Stage。
A、C、E是三个RDD的实例
当A做groupByKey转换操作生成B时，由于groupByKey转换操作属于宽依赖类型，所以就把A划分为一个Stage，如Stage1。
当C做map转换操作生成D， D与E做union转换操作生成F。由于map和union转换操作都属于窄依赖类型，因此不进行Stage的划分，而是将C、D、E、F加入到同一个Stage中。
当F与B进行join转换操作时，由于这时的join操作是非协同划分，所以属于宽依赖，因此会划分为一个Stage，如Stage2。
剩下的B和G被划分为一个Stage，如Stage3。

Spark会根据DAG将整个计算划分为多个阶段，每个阶段称为一个Stage。每个Stage由多个Task任务并行进行计算，每个Task任务作用在一个分区上，一个Stage的总Task任务数量是由Stage中最后一个RDD的分区个数决定的。
Stage的划分依据为是否有宽依赖，即是否有Shuffle。Spark调度器会从DAG图的末端向前进行递归划分，遇到Shuffle则进行划分，Shuffle之前的所有RDD组成一个Stage，整个DAG图为一个Stage。

经典的单词计数执行流程的Stage划分如下图所示。
上图中的依赖关系一共可以划分为两个Stage：从后向前进行递归划分，RDD3到RDD4的转换是Shuffle操作，因此在RDD3与RDD4之间划开，继续向前查找，RDD1、RDD2、RDD3之间的关系为窄依赖，因此为一个Stage；整个转换过程为一个Stage。

下图中的依赖关系一共可以划分为3个Stage：从后向前进行递归划分，由于RDD6到RDD7的转换是Shuffle操作，因此在RDD6与RDD7之间划开，然后继续向前查找，RDD3、RDD4、RDD5、RDD6为一个Stage；由于RDD1到RDD2的转换是Shuffle操作，因此在RDD1与RDD2之间划开，然后继续向前查找，RDD1为一个Stage；整个转换过程为一个Stage。

Spark的任务调度流程，即RDD在Spark中的运行流程分为RDD Objects、DAGScheduler、TaskScheduler以及Worker四个部分。