ApacheのスパークEET

RDDの起源

及びインタラクティブデータマイニング(例えば、機械学習、グラフアルゴリズム、など)多くの反復アルゴリズムでは、すなわち、出力段は、次のステージの入力として使用されるさまざまな段階の間の中間結果を計算し再利用します。

しかし、MapReduceのフレームワークの非環式のデータ・フロー・モデルを使用する前に、中間結果は、複製の多くをもたらす、HDFSに書き込まれ、シーケンスオーバーヘッドディスクIOれます。

そして、フレームワークのみ(マップ/削減)、特定の計算モードをサポートし、それが一般的なデータの抽象化を提供していません。

「:インメモリクラスタコンピューティングのためのAフォールトトレラント抽象弾力性分散型データセット:」これらの問題を解決するためにされたAMPの研究室では、RDDの論文を発表します

RDDは抽象データモデルを提供し、我々はまた、異なるRDD間の依存の変換動作との間に形成することができる、唯一の特定のアプリケーションロジックを処理(機能)を切り替える一連のように表現され、基礎となるデータの分散性について心配する必要はありません従って従って、中間結果の記憶を回避する、パイプラインを実現する関係は、大きく(...地図/ reduec /フィルタ/ GROUPBY)複製を減少させ、配列ディスクIOオーバーヘッド、および、よりAPIを提供します

RDDとは何か

RDD(弾性分散データセット)並列計算を設定することができる素子パーティション不変を表す、最も基本的なデータ抽象スパーク、フレキシブル分散データ・セットであると呼ばれます。

単語を逆アセンブル

  • 弾力性:それは柔軟性があり、データRDDは、メモリまたはディスク内部に格納することができます
  • 分散:これは、記憶素子の内部に分配され、それは、分散コンピューティングのために使用することができます
  • データセット:それはコレクションである、あなたは、要素の多くを保存することができます

RDDの主な属性

パーティションの1.Aリスト:

スライス(パーティション)/パーティション(パーティション)リスト、即ち、データセットの基本ユニット。
RDDのために、各スライスは、並列度がタスク処理、フラグメントの数を計算して決定されます。
指定されていない場合、ユーザはRDD RDDの作成におけるスライスの数を指定することができ、それが値をデフォルト設定されます。

各分割を計算するため2.A関数:

機能が有効に各パーティションになります。
スパークRDD計算は、パーティション単位に基づいて、計算機能は、各パーティションに適用されます

他のRDDSの依存関係の3.Aリスト:

RDDは、他のRDDの数に依存するであろう。
RDDは、各変換器が新しいRDDを生成し、それが前部と後部との間のRDD同じ依存性のような行を形成することになります。パーティションのデータ損失の場合には一部、スパークはむしろRDDが再計算されたすべてのパーティションよりも、この依存関係によって、失われたパーティションのデータを再計算することができます。(スパークフォールトトレランス)

4.Optionally、キーと値のRDDSのためのパーティション分割(例えば、RDDは、ハッシュ・パーティションであると言うこと):

スパークパーティションは、ハッシュHashPartitionerに基づいて、他の計算されRangePartitioner範囲を機能します。
RDDのKVタイプの場合パーティション分割機能、すなわちRDDパーティション機能(オプション)を持っている
だけRDDのキーと値のために、パーティショナ、RDDがNone以外のキー値Parititionerの値を持つことになります。パーティショナ機能は、パーティションの数自体をRDD決定するだけでなく、親RDDシャッフル出力のパーティションの数を決定します。

(HDFSファイルの例えばブロック位置)にそれぞれ分割を計算するための好ましい場所の5.Optionally、リスト:

必要に応じて、店舗の場所のリスト各パーティション(好ましい位置)。
HDFSファイルの場合、このリストの保存は、各パーティションのブロック位置です。「モバイルデータがより良いモバイルコンピューティングである」という概念によると、タスクスケジューリング時間を作るスパークは、それらのワーカーノードは、タスクの計算を行うことができるように、データが含まれて選択されます。

概要

RDDは、計算する方法だけでなく、データの集合であるデータセットを示し、データセットも、彼が来るのショー。
主要な特性は、

1.マルチパーティション
2計算機能
3.依存性
4.パーティション関数(デフォルトはハッシュである)
5.最適位置

公開された295元の記事 ウォンの賞賛184 ・は 10000 +を見て

おすすめ

転載: blog.csdn.net/weixin_42072754/article/details/105305561