魂の火花:RDDとのDataSet

スパークは、結果を得るために、抽象RDD、RDDの異なる処理に需要データ、及びその後RDDオペレータ一連の動作に基づきます。
RDDは、フォールトトレラント、パラレルデータ構造であり、データは、ディスク、メモリに格納されてもよいし、データパーティショニングを制御することができ、データを操作するための豊富なAPIを提供します。

1:RDD及び分析の5つの特徴の定義
RDDは、分散メモリの抽象化、高度に制限された共有メモリ・モデル、全クラスタ全体の並列計算ノードの、すなわち、可能な読み出し専用記録RDDパーティションの集合であり、それは作業セット抽象モデル。
(1)パーティションのリストを
(2)各パーティションは、演算機能を有している
(3)他のRDDリストに依存し
(4)のキー値データ型RDDパーティショナ
(5)各パーティションは、優先順位リスト有する
2 :データセットの定義と内部のメカニズムの解析

おすすめ

転載: blog.51cto.com/wangyichao/2436090