SortShuffleManagerバイパスバイパス操作機構

バイパス操作機構

次の図は、バイパスSortShuffleManagerの原理を示します。次のようにトリガーバイパス操作機構です。

  • Spark.shuffle.sort.bypassMergeThresholdシャッフルマップタスクの数は、パラメータの値よりも小さくなっています。
  • シャッフルオペレータが凝集されていないクラス(例えばreduceByKey)。

このタスクでは、下流の各ディスクのタスクのための一時ファイルを作成し、対応するキーのハッシュ値に係るプレスハッシュキーデータとキーは、ディスク・ファイルに書き込まれます。バッファは、ディスクファイルに溢れいっぱいしてからです後もちろん、ディスクファイルに書き込むときは、まず、メモリバッファに書き込まれます。最後には、すべてではない一時ディスクファイルはディスク・ファイルにマージされていること、および別のインデックスファイルを作成します。

プロセスのディスク書き込みメカニズムが最適化されていないと、実際にあるHashShuffleManagerは、ディスク・ファイルの驚くべき数を作成する必要がありますので、まったく同じですが、最後のマージにのみディスクファイルを行います。したがって、ディスク・ファイルの最終的な量が、また、比較的非最適化HashShuffleManagerメカニズムに、パフォーマンスが良くシャッフル読み込まれます。

異なるメカニズムと通常SortShuffleManagerの動作機構:第一に、異なるディスク書き込み機構は、第二の、ソートされないであろう。すなわち、動作はそれによってパフォーマンス・オーバーヘッドのこの部分を保存し、データをソートする必要がない、この機構の最大の利点を可能にする、すなわち、シャッフル書込処理です。

 

 

 

 

おすすめ

転載: www.cnblogs.com/sunpengblog/p/11915439.html