Spark内核源码深度剖析(6) - DAGScheduler原理

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/u012292754/article/details/86130394

1 DAGScheduler stage 的划分

  • 会从触发 action 操作那个 rdd 开始往前倒推,首先会为最后一个 rdd 创建一个 stage,然后往前倒推的时候,如果发现对某个 rdd 是宽依赖,那么就会将宽依赖的那个 rdd 创建一个新的 stage,那个 rdd 就是新的 stage 的最后一个 rdd,然后依次类推,继续往前倒推,根据窄依赖或者宽依赖进行 stage 的划分,直到所有的 rdd 全部遍历完了为止。
    在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/u012292754/article/details/86130394