Spark内核源码深度剖析(1) - Spark整体流程 和宽依赖和窄依赖

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/u012292754/article/details/86032013

1 Spark 整体流程

在这里插入图片描述
在这里插入图片描述

2 宽依赖和窄依赖

在这里插入图片描述

2.1 窄依赖

  • Narrow Dependency,一个RDD对它的父RDD,只有简单的一对一的依赖关系。即RDD的每个 partition仅仅依赖于父RDD中的一个 partition。父RDD和子RDD的 partition之间的对应关系是一对一的。

2.2 宽依赖

  • Shuffle Dependency,本质就是 shuffle ,每一个父 RDD 的partition中的数据都可能传输一部分到下一个RDD 的每个 partition。此时就会出现 父RDD和子RDD的partition之间,具有交互错综复杂的关系。两个RDD之间是宽依赖,他们之间的操作就是 Shuffle

猜你喜欢

转载自blog.csdn.net/u012292754/article/details/86032013