Spark宽窄依赖的划分规则

窄依赖

  • 父RDD一个分区中的数据,交给子RDD一个分区来处理。

宽依赖

  • 父RDD一个分区中的数据,交给子RDD多个分区来处理。

如何辨别宽依赖和窄依赖?

  • 一般来说,发生shuffle的操作都属于宽依赖。比如:sortBy()、reduceByKey()、groupByKey()、join()和调用rePartition()函数的任何操作。

猜你喜欢

转载自blog.csdn.net/FlatTiger/article/details/115079759