spark rdd之间的宽依赖和窄依赖



①task从hdfs读取数据到linesRDD中,同一批task对linesRDD进行flatMap操作;

②继续对wordsRDD做map操作,记录单词次数

③这个地方会划分一个stage,新的一批task会提交到executor上,对pairs RDD做reduceByKey操作

窄依赖(narrow dependency):每一个父RDD的Partition最多被子RDD的一个Partition使用。

宽依赖(Shuffle dependency):指的是多个子RDD的Partition会依赖同一个父RDD的Partition,本质上每一个父RDD中数据都有可能传播到子RDD中,即这也是数据发生shuffle的过程。

猜你喜欢

转载自blog.csdn.net/u013174239/article/details/80223628