並列コンピューティングとMapReduceの

2019年12月1日

21時17分38秒

参考ます。https://www.iteye.com/blog/xuyuanshuaaa-1172511

私はMapReduceの、行うには伝統的なMapReduceの並列コンピューティングモデルベースのHPCクラスターとの短い比較の利点は、考えることができる内容の要約をしたいと思いますので、今のMapReduce / Hadoopのと関連するデータ処理技術は、ずっと前に学んできたし、非常に暑いです要約と櫛を作るためのMapReduceの知識。 

  インターネット機能をデータ処理に必要なデータの量を増加し続けるにつれて、ますます高くなってきています。計算処理量は、並列コンピューティングは、自然な方法に対処するために取られ、単一の容量限界を超えた場合。MapReduceのが登場する前に、そのMPIのような、非常に高度な並列計算フレームワークがありました、そしてなぜ必要MapReduceのGoogleは、MapReduceは、フレームワークの利点は何を計算する従来のパラレルに比べて、このは、この資料の問題です。 

  最初の記事の冒頭には、伝統的な並列コンピューティングとのMapReduceフレームワークの比較表を与え、次いで、項目分析に供しました。  

コンピューティングとHPCクラスタのMapReduce比較メリット平行 
▲ 

  論理的に単一のコンピュータ上で統一のような従来の並列コンピューティングでは、コンピューティングリソースは、一般的に示されています。複数のブレードから成るHPCクラスタの場合、SANを構成し、プログラマにショーは依然としてコンピュータであるが、この計算はCPUの数が多いと、メインメモリとディスクの膨大な容量を有しています。物理的なコンピューティングリソースとストレージリソース上の2つの対向する別個の部分は、データバスまたは高速ネットワーク伝送を介してデータノードから算出到着ノードデータです。計算集約型の少量のデータを処理するため、これは問題ではありません。データ集約処理のために、私は、計算ノードとストレージノードとの間に/ Oシステム全体のパフォーマンスのボトルネックになります。原因データは、I / Oボトルネックを引き起こし、中央に位置するアーキテクチャを共有します。さらに、アセンブリクラスタ間の結合ので、より密接に依存し、クラスタのフォールトトレランスが悪いです。 

  実際には、ときに大規模なデータデータは、特定の地域特性に反映される場合、これ統合データストレージ、統一されたアプローチを読み出しが最適ではありません。MapReduceは、大規模データ処理の問題を解決することを約束ので、初期の設計における地域の全体の問題点の統治原理を使用して、アカウントに地域データの原則をとるれます。MapReduceのクラスタは、シェアード・ナッシング・アーキテクチャーのための通常のPCのメカニズムで構成されています。処理前に、各ノードへのデータセットの分布。データ伝送の多数を回避する処理、(マップ)ローカルに格納されたデータを読み出すに最も近い各処理ノード、処理されたデータのマージ(結合)、(シャッフルソート)ソートした後、分散(ノードを低減するために)、処理効率を向上させることができます。もう一つの利点は、レプリケーション(複製)戦略に何もアーキテクチャを共有している、クラスタは、クラスタの通常の作業のダウンマシンノードの一部が影響を受けることはないだろう、良いフォールトトレランスを持つことができます。 

  ハードウェア/価格/スケーラビリティ 

  の伝統的なHPCクラスタは、高度なハードウェアで構成され、非常に高価な、あなたは、HPCクラスターのパフォーマンスを向上させたい場合は、通常、縦方向に拡大方法取ら:その変更速いCPU使用など、メモリを追加し、ディスク拡張をブレードを増加。しかし、この方法は、拡張(ピークに到達することは容易である)とアップグレード高価なコンピューティングの長期的な拡張をサポートすることはできません。したがってMapReduceのクラスタ、HPCクラスタ乏しいスケーラビリティに関する。 

  MapReduceのクラスタは、通常のPC機関で構成され、通常のPCはより高い価格、およびクラスタのため、同じコンピューティングパワーを持っている、MapReduceの価格のクラスタははるかに低いです。また、良好な横方向伸張性を有するイーサネット(登録商標)接続を介して、MapReduceのクラスタノードは、すなわち、スループットがPCを添加することによって改善することができるようノード。ヤフーは、世界最大のHadoopクラスタが4000個の以上のノードが含まれている(GoogleのMapReduceのクラスタサイズを大きくする必要がありますが、ユーザーは知らされている場合には、任意の特定の数字を発表していないようですが、また、翼を願っています)。 

  プログラミング/学習曲線 

  並列コンピューティングとマルチスレッドモデルの伝統的なモデルは同様のロジックを持って、このプログラミングモデルの最大の問題は、プログラムの動作を制御することは困難です。結果の正確な実施を確保するためには、慎重に共有リソースへのアクセスを制御する必要があるため、ミューテックス、セマフォ、ロックおよび他の同期技術のシリーズを開発し、それはまた、そのような戦い、飢餓、デッドロックなどのような問題をもたらします。行うにはどのようにするだけでなく、プログラムの実行の詳細を検討する(すなわち」:伝統的なコンピューティング・モデルを使用して並列プログラミングでプログラマ、(解決すべき必要性を記述するための並列モデルの使用「何をすべきか」、すなわち)の観光名所を検討するだけでなく、並列プログラミングを困難に「多くの同期プログラムの実行、通信の問題)。このようMPI、OpenCLの、CUDAなどの既存のプログラミングモデルは、唯一のより低いレベルのパッケージで行われ、プログラムの実装の詳細は、まだ多くに対処する必要があります。 

  MapReduceはより多くの処理を行うことである。MapReduceのプログラミングモデルがないだけ含むが、MapReduceのプログラムを実行するためのランタイム環境を提供し、そのような配布、統合、同期化、監視、およびその他の機能などの多くの詳細、並列プログラムの実行は、フレームワークの実装に関与することが引き渡されました。使用MapReduceのは、プログラマだけでプログラムが実行されるかを気にすることなく(何)、問題を記述するためのMapReduceモデルを使用する方法を検討する必要があります(どのように)、それは簡単なのMapReduceを使用できるようになります。 

  該当シーンは 

  ?そんなに良いもののMapReduce、MapReduceのはワンサイズは、すべての権利をフィットであると述べていない 

  大規模な、非リアルタイムデータを処理する問題を解決:答えはMapReduceのがするように設計されていることを忘れてはならないものを、関係なく、何もありません。(分割可能)利用可能な大規模データの局所性の特性をすることを決めた、それができバッチ;非リアルタイムの応答時間の代表が、長くなるプログラムを実行するための十分な時間を持つことができます。:そのような次のいくつかの操作として 

  1更新ソート、検索エンジン(のPageRankアルゴリズムが全体のウェブグラフ上で実行される) 

  2.計算推薦(推薦結果をリアルタイムで更新定期的に更新固定時点を設定することは、必要とされません) 

  ウェブの発展に伴い、特にSNSの開発とモノのインターネット、ユーザー、爆発的な成長を示すセンサデータの量の様々な生産ウェブ:MapReduceの誕生は、その歴史的背景を持っています。データはデータのみに固有の情報を得るために、唯一の分析および処理した後、死んだデータを保存し、その情報から知識をまとめることができます。したがって、データは、プロセスデータへの能力として重要として、重要です。伝統的なHPCクラスタに基づいて計算すると、急速な成長のニーズを処理したデータを満たすことができないので、通常のPCベースの低コスト、高性能、拡張性の高いされているパラレル、信頼性の高いMapReduceは浮上しました。

おすすめ

転載: www.cnblogs.com/JasonPeng1/p/11967764.html