RDDの基礎 - ノート

RDDプログラム

分散オブジェクトRDDのスパーク基礎は不変集合です。RDDはそれぞれ複数のパーティションに分割され、クラスタ内の異なるノード上で実行されているパーティション。RDDは、Pythonを含んでもよく、さらにユーザー定義オブジェクトを含むことができ、Java(登録商標)、任意のタイプのスカラオブジェクト。:二つの方法RDDで作成
1.外部の読み出しデータセット
ドライバプログラムドライバプログラムで(このようなリストやセットなどの)配布オブジェクトのセット2。

RDDのサポート業務:
1.コンバージョンアクション(変換):RDDは新しいRDDを生成します。
2アクション操作(アクション):RDDは、結果を計算し、その結果を外部または結果に格納されたドライバプログラムに戻します。
3.あなたはいつでも新しいRDDを定義することができますが、しかし、唯一の不活性スパークは、これらのRDDを計算します。彼らが唯一の移動操作で初めて使用され、それは実際に計算されます。
4.デフォルトでは、RDDのスパークは、あなたがそれらを動作させるに基づいて行動するたびに再計算されます。あなたが運転中に同じRDD以上のアクションを再利用したい場合は、RDDのキャッシュされたにスパークを許可する)(RDD.persistを使用することができます(私たちはRDD説明したようにいつでも再みなさなぜ「柔軟な理由」することができます)。

次のように各スパークプログラムまたはシェルセッションが働きます。
1.外部データRDDからの入力を作成します。
新しいRDDを定義するRDD変換アクションこのような変換にフィルタとして2.()。
3.スパークは、中間結果はRDDの実行()オペレーションを永続再利用する必要があると語りました。
4.アクション操作(例えば、(カウント)と第1()、等)並列計算をトリガするために、スパークは、次に最適化計算を実行します。

errorsRDD = inputRDD.filter(lambadのX:Xにおける"エラー")
warningsRDD = inputRDD.filter(lamdba X:Xに"警告")
badLinesRDD = errorsRDD.union(warningRDD)

キャッシュ()レベルが持続デフォルトのストレージを()と同じである使用して呼び出します。
カウント結果を返します)(カウント
RDD収集要素のいくつかのテイクを()

ファイル

おすすめ

転載: www.cnblogs.com/skywp/p/11671102.html