ビッグデータ--Spark

免責事項:この記事はブロガーオリジナル記事です、続くBY-SAのCC 4.0を著作権契約、複製、元のソースのリンクと、この文を添付してください。
このリンク: https://blog.csdn.net/qq_39530692/article/details/85008488

 

理由スパークが発生します:

1は、MapReduceは多くの制限、地図を持っており、唯一の2つの動作モードをサポートし、だけでなく、反復効率が比較的低い、ストリーミングが得意ではない、対話型の処理には適していません削減します。

図2に示すように、従来のコンピューティングフレームワークの競合のさまざま。

スパークは、バッチ可能な単一のフレームであり、インタラクティブコンピュストリーミング算出します。

スパークは、クラスタ収集、記憶ディスクまたはメモリに分散オブジェクトRDD(弾性分散データセット)の中心概念です。パラレルによってautoreconstitution障害が発生した後、動作設定を「変換」。

RDD二つの動作:1、変換:スカラセットまたは経験またはRDDにより構成された従来のHadoopによって生成新しいRDD RDD

2、アクション:値のセットを取得または計算によって

ツール:

1、サメ:スパークエンジン、ハイブHQL解析の再利用、字句解析、構文解析モジュール、ハイブと完全に互換性が、ハイブよりも高い効率を計算するために、対話型クエリ・エンジンです。

図2に示すように、Graphx:スパーク図は、フレームに基づいて算出し、図の記憶構造及びアルゴリズムが提供されます。

3、MLBase:Mahoutのとスパークベースの機械学習ライブラリは、似ていますが、スパークがMapRedece達成、というよりも基づいており、クラスタリング、分類、推奨アルゴリズムを可能にしますが、アルゴリズムはないMahoutの多くを行います。

4、ストリーミングスパーク:フレームに基づいて計算スパーク流れ、高速計算スパークの利点をフルに活用、より高いスループットおよび効率ストーム

二つの最も一般的なシナリオをスパーク:

1、オフラインシナリオ:データセットなど年の時間ディメンション、処理します。

2、リアルタイムのシナリオ:リアルタイムデータ伝送、ハードウェア信号、及び画像データ演算処理

おすすめ

転載: blog.csdn.net/qq_39530692/article/details/85008488