バイパス操作機構
次の図は、バイパスSortShuffleManagerの原理を示します。次のようにトリガーバイパス操作機構です。
- Spark.shuffle.sort.bypassMergeThresholdシャッフルマップタスクの数は、パラメータの値よりも小さくなっています。
- シャッフルオペレータが凝集されていないクラス(例えばreduceByKey)。
このタスクでは、下流の各ディスクのタスクのための一時ファイルを作成し、対応するキーのハッシュ値に係るプレスハッシュキーデータとキーは、ディスク・ファイルに書き込まれます。バッファは、ディスクファイルに溢れいっぱいしてからです後もちろん、ディスクファイルに書き込むときは、まず、メモリバッファに書き込まれます。最後には、すべてではない一時ディスクファイルはディスク・ファイルにマージされていること、および別のインデックスファイルを作成します。
プロセスのディスク書き込みメカニズムが最適化されていないと、実際にあるHashShuffleManagerは、ディスク・ファイルの驚くべき数を作成する必要がありますので、まったく同じですが、最後のマージにのみディスクファイルを行います。したがって、ディスク・ファイルの最終的な量が、また、比較的非最適化HashShuffleManagerメカニズムに、パフォーマンスが良くシャッフル読み込まれます。
異なるメカニズムと通常SortShuffleManagerの動作機構:第一に、異なるディスク書き込み機構は、第二の、ソートされないであろう。すなわち、動作はそれによってパフォーマンス・オーバーヘッドのこの部分を保存し、データをソートする必要がない、この機構の最大の利点を可能にする、すなわち、シャッフル書込処理です。