PySpark基础入门（5）：Spark 内核调度

Spark 内核调度

Spark任务调度：如何组织任务去处理RDD中每个分区的数据，根据RDD的依赖关系构建DAG，基于DAG划分Stage，将每个Stage中的任务发到指定节点运行。基于Spark的任务调度原理，可以合理规划资源利用，做到尽可能用最少的资源高效地完成任务计算

DAG

有向无环图，代表的是spark任务的执行流程图；

示例：

DAG图的作用：标识代码的逻辑运行流程；

DAG图的产生：一个action算子会将其前面一串的RDD依赖关系执行，也就是说一个action会产生一个DAG图；

Job和Action的关系

1个action会产生一个DAG，而一个DAG会在程序运行中产生一个Job；

所以 1action=1DAG=1Job

在一个Application中，可以有多个Job，每一个Job内含一个DAG，同时每一个Job都是由一个Action产生的

DAG和分区之间的关联

DAG是Spark代码的逻辑执行图，其最终作用是为了构建物理上的Spark详细执行计划；

由于Spark是分布式执行的，所以DAG与分区也有关联；带有分区交互的DAG是在程序运行之后由spark决定的

DAG的宽窄依赖和阶段划分

窄依赖：父RDD的一个分区，全部将数据发给子RDD的一个分区；

宽依赖（shuffle）：父RDD的一个分区，将数据发给子RDD的多个分区；（需要依赖网络IO）

区分宽窄依赖：看RDD之间有无分叉；

阶段划分：按照宽依赖划分不同的Stage

划分依据：从后向前，遇到宽依赖就划分出一个阶段，成为Stage，如图：

由此可以看出，每一个阶段的内部一定是窄依赖；