シャッフルのHadoopの段階

オリジナル:

https://www.toutiao.com/i6764683672772674062/

 

処理のこの形態は、マップステージに、Vの形で、Kで前マップに入る前に、前記第一のバイト・オフセットの量に応じて、HDFS、プロセスからデータを読み取ります。

前記のInputFormatは、最終的な読み出し方法で呼び出し、クラスの継承関係考えKを生成し、マップへの入力のVすることができ、マップデータは、この時点で受信されたのK、Vであります

 

データは、OutputCollector(OutputCollector地図出力Kを収集する責任を、上のV)に回収されます

 

リングバッファ、mr.sort.mb構成によって100Mバッファリングのデフォルトサイズ、K、Vのペアを大量に保管に入るその後、それは、円形のリンクされたリストと考えることができます

 

そして、流出段階に入ります

メモリ内のデータ量が一定のしきい値に達すると、彼らはローカルディスク(ローカルに書き込まオーバーフロー)にデータを書き込むときに、それがディスクに書き込まれる前に、データのニーズがデータを操作するの並べ替えをすることが、あなたはコンバイナを設定した場合、また、同じパーティション番号とソートキーのデータを持っています

すべての一時ファイルオーバーフローマージ操作は一度だけMapTaskが最終的に中間データファイルを作成確保するために

 

データ・フェーズに入り、その後減少させる(図黄色であるが、最終的に減らします)

 

おすすめ

転載: www.cnblogs.com/bqwzy/p/12528451.html