スパークとMRの類似点と相違点

スパークは、MapReduceのを借りて、その基づいて開発され、それが分散コンピューティングと改善MapReduceの明白な欠陥の長所を継承しますが、次のように両方も違いがたくさんあります:

1、より高いメモリに格納された中間データを、反復計算効率のスパーク動作、中間結果を接地する必要があるのMapReduce、ディスクには、オペレーティングディスクIOパフォーマンスに影響を与えない伴うれ、保存される必要があります

2、高い耐障害性を火花、それは弾性効率的なフォールトトレラント分散データにより達成されるが、RDDを設定し、RDDは、メモリに格納された分散ノードのセット読み取り専用データ・セットの性質であり、これらのセットは、弾性であり、部分的損失又はミスは、データセット全体の親族算出処理の再構成によって達成することができ、フォールトトレランスのみを再計算することができる場合のMapReduce、より高いコスト

。3、関数のAPIの変換と、これら二つのカテゴリのアクションを複数設ける火花、より一般的なスパーク、MapReduceのマップと減らすだけ2つの操作を提供

図4は、フレームと生態スパークより複雑、RDDは、血液系統は、有向非巡回グラフDAG、描写の実行中のステージは、スパークジョブが性能要件に達しているさまざまなシナリオに同調するために必要な多くの時間を最初必要とされています;のMapReduceや生態系の枠組みは比較的簡単ですが、性能要件も比較的弱いですが、バックグラウンドでの長期実行のために、より安定して実行します

要約、豊かな生態系のより強力な、より良いパフォーマンス、アプリケーションの広い範囲を火花; MapReduceのより簡単な、良好な安定性、オフラインデータマイニング大規模なコンピューティングに適しました

おすすめ

転載: www.cnblogs.com/xiangyuguan/p/11227971.html