幅依存ステージ分割スパーク

 

狭い依存性

RDDとRDDサブパーティション間の関係は、一から一、又は唯一のサブパーティションRDDとRDD子関係は、多対パーティションの場合に親RDD RDDの親に対応するパーティションです。

そこではないでしょうシャッフル生成するRDDに親パーティションのサブRDDのパーティションを。  

または多対1

それは唯一の子として理解することができます

ワイド依存

RDDとRDDのパーティションとの間の関係は、サブ多くのです。

ウィルシャッフル生成、RDD内部の子にRDD親の別のパーティションにデータパーティションを。  

多くの

それは立ち直ることができると理解することができます

 

共通の幅依存性

狭依存:地図flatMap mapPartitionsをフィルタリング

宽依赖: reduceByKey grupByKey combineByKeyは、sortByKeyは、参加(なしcopartition)

 

ステージ

スパークタスクRDDを形成する間の依存関係、DAG 有向非巡回グラフが、DAGをに提出されDAGScheduler DAGSchedulerは意志DAGの分割相互依存の複数の段階を

部門はステージの全体的なアイデアを

後部から前方に押されて、彼が遭遇した広い依存性は、切断に分かれている段階;これは遭遇狭い依存しますRDDをに追加され、ステージの。

 

おすすめ

転載: www.cnblogs.com/Alcesttt/p/11514375.html