MapReduceのシャッフルのメカニズムに

  地図の削減は、計算フレームワークです。すべてのノード上で実行されている送信するために地図機能は、関連するデータが含まれている、といくつかの中に収集したいくつかのグループ、少数のノードを削減ランニングを収集するために、複数のホストにマップ上で結果を削減機能に応じて、ポイントの数を減らします実行します。

 

  シャッフルメカニズム:パケットシーケンシング

 

MapReduceの実装プロセス

  • プロセスマップ考えスライスの数に基づいて、スライスの処理に対応するマップは、相対的なブロックサイズの点でタイルのサイズは、スライスに対応するブロックの小ブロックの数は、スライスは、ファイルオフセットの範囲です。
  • プロセス、メモリ内の最初のプロセスをマッピングするために送達される分割セクション後に計算良い点は、バッファフルとたびに、出力バッファの内容をファイルにこぼれ、ローカルグループ間の各ファイルデータが順序付けされます。
  • 入力データが処理されると、現在のマップファイルオーバーフロープロセスが大きくなるように文書をマージすることができる(グループ番号によって順序付け基を保持し、合わせました)。
  • プロセスは、同時に任意のマップの完全な要約である大容量のファイルの収集を開始プロセスを削減すると、個々のマップ大きなファイルに同じグループ番号のデータ収集からマージソート。
  • 良いプロセスの最終的な出力は、良好なクラスにソートされたデータのサブセットを減らします。
  • MRは、データの量がキャッシュサイズを超える可能性のために、頻繁にMRそう頻繁にスパークよりも、ディスクファイルに書き込むことができ、ゆっくりと、しかしもあるため、ディスクとの相互作用の嵐、データを処理することができるMRの大きさが大きくなる、非オフライン交換するのが難しいリアルタイム計算。

シャッフルメカニズム

  1. 糸のResourceManagerが計算されます後は、リソース割り当てプロセスは、ノード内のMRAppMasterノードマネージャノード、ここでシャッフル機構のMapReduceを開始します。
  2. スライスの数を決定する処理MRAppMaster地図のノードの数、タスクがマシン上でデータ処理をスライスし、そしてメモリバッファがいっぱいになったときに結果が(ホストのパケットバッファメモリマップに格納された地図タスク、上のノードを開始ディスクに自動的にこぼれたとき、構成は、構成ファイルに従って)ローカルに順序付けられた小さなファイル、バッファ、及び小さな複数のファイルを生成することが、後に一緒にし、小さなファイル一つの大きなファイルに、マージプロセスは依然として大きなファイルでありますソート残ります
  3. マップタスクは、タスクが完了すると、それは一緒にMRAppMaster、タスクのステータスレポート、結果ファイルの場所、グループ情報に結果を報告します処理します
  4. MRAppMasterプロセスは、すべてのマップタスクの結果からのフィードバックを受けて、タスクを減らすだけで、それぞれに異なった助成金の数を減らし、データを削減しながら、などを知らされたグループ内のデータファイル、ホストを取るために、ノード上のいくつかのプロセスを開始します
  5. データをダウンロードするためにターゲットの場所を低減するための情報を取得した後、もちろん、そのグループに対応するデータのみを取り、データの他のグループは、他によって減らすために除去されます
  6. 取ると秩序を維持するためにマップのそれぞれから同じデータセットを減らす組み合わせ
  7. ロジックの組み合わせセットを減らします
  8. 出力、ジョブの完了
  9. このResourceManagerキャンセル、完全にオーバー仕事、糸の買収にMRAppMaster

 

おすすめ

転載: www.cnblogs.com/fusiji/p/11409919.html