理由スパークが発生します:
1は、MapReduceは多くの制限、地図を持っており、唯一の2つの動作モードをサポートし、だけでなく、反復効率が比較的低い、ストリーミングが得意ではない、対話型の処理には適していません削減します。
図2に示すように、従来のコンピューティングフレームワークの競合のさまざま。
スパークは、バッチ可能な単一のフレームであり、インタラクティブコンピュストリーミング算出します。
スパークは、クラスタ収集、記憶ディスクまたはメモリに分散オブジェクトRDD(弾性分散データセット)の中心概念です。パラレルによってautoreconstitution障害が発生した後、動作設定を「変換」。
RDD二つの動作:1、変換:スカラセットまたは経験またはRDDにより構成された従来のHadoopによって生成新しいRDD RDD
2、アクション:値のセットを取得または計算によって
ツール:
1、サメ:スパークエンジン、ハイブHQL解析の再利用、字句解析、構文解析モジュール、ハイブと完全に互換性が、ハイブよりも高い効率を計算するために、対話型クエリ・エンジンです。
図2に示すように、Graphx:スパーク図は、フレームに基づいて算出し、図の記憶構造及びアルゴリズムが提供されます。
3、MLBase:Mahoutのとスパークベースの機械学習ライブラリは、似ていますが、スパークがMapRedece達成、というよりも基づいており、クラスタリング、分類、推奨アルゴリズムを可能にしますが、アルゴリズムはないMahoutの多くを行います。
4、ストリーミングスパーク:フレームに基づいて計算スパーク流れ、高速計算スパークの利点をフルに活用、より高いスループットおよび効率ストーム
二つの最も一般的なシナリオをスパーク:
1、オフラインシナリオ:データセットなど年の時間ディメンション、処理します。
2、リアルタイムのシナリオ:リアルタイムデータ伝送、ハードウェア信号、及び画像データ演算処理