オペレータは何RDDで秘密のスパーク

1、RDDの基礎

        RDDは(弾性分散データセット)と呼ばれる弾性分散データセットを表し、最も基本的なデータ抽象スパーク、ある不変を分割することができるの内部要素は、並列コンピューティングを設定しますRDD特性データフローモデルが有する:自動フォールトトレランス位置認識型スケジューリングおよびスケーラビリティワーキングセットが明示ときRDDは、ユーザーが複数のクエリを実行することを可能にメモリにキャッシュされ、後続の問合せが大幅にクエリの速度を向上させる作業セットを、再利用することができます。

 

第二公式サイト:

内部的には、各RDDは、5つの主要な特性によって特徴付けられます。

  • パーティションのリスト
  • 各分割を計算するための関数
  • 他のRDDSの依存関係のリスト
  • キーと値のRDDSのため必要に応じて、パーティション分割(例えばRDDは、ハッシュ・パーティションであると言うこと)
  • 必要に応じて、好適な場所のリストは、(HDFSファイルの例えばブロック位置)に各分割を計算します

内部的には、各RDDは、主に5つの属性があります。

  • パーティション一覧
  • 計算するための各スプリット機能
  • 他の依存関係のリストRDD
  • あるいは、RDD分割プログラムするためのキー(例えば、ハッシュ・パーティションはRDDあります)
  • (オプション)分割位置のそれぞれの優先リストを計算するために使用される(例えば、ファイルブロック位置HDFS)

 

III。深い理解

  • スライス(パーティションの基本単位、RDDのために、各スライスは、コンピューティングタスクを処理すること、および粒子サイズの並列コンピューティングを決定します。指定されていない場合、ユーザはRDD RDDの作成におけるスライスの数を指定することができ、それが値をデフォルト設定されます。デフォルト値は、CPUコアのプログラムに割り当てられた番号です。
  • 各パーティションの計算機能スパークRDD計算は、関数のそれぞれは、RDDは、この目的を達成する計算するために、スライス単位に基づいています。イテレータは、複雑な関数を計算します、あなたはそれぞれの計算結果を保存する必要はありません。RDDは、パーティションのグループ、パーティション関数を計算するために使用されるデータ、演算子であります
  • RDDは間の依存関係しますRDDは、各変換器が新しいRDDを生成し、それが前部と後部との間のRDD同じ依存性のような行を形成することになります。パーティションのデータ損失の場合には一部、スパークはむしろRDDが再計算されたすべてのパーティションよりも、この依存関係によって、失われたパーティションのデータを再計算することができます。
  • A パーティション分割、すなわちRDDのスライス機能現在断片化関数の2つのタイプの実施スパークは、他のRangePartitioner範囲基づいて、ハッシュベースHashPartitionerあります。のみRDDのキーと値のために、パーティショナ、RDDがNone以外のキー値Parititionerの値を持つことになります。パーティショナ機能は、フラグメントの数自体をRDD決定するだけでなく、断片の数親RDDシャッフル出力を決定するだけでなく。別:カスタムパーティション(MR同様のカスタムパーティション)
  • リストの各パーティション(好ましい位置)の、ストア・アクセス優先順位。HDFSファイルの場合、このリストの保存は、各パーティションのブロック位置です。タスクのスケジューリングを実行するとき、「モバイルコンピューティングのような優れたとして移動データ」の概念によれば、スパークは、タスクが処理されるべきデータブロックの格納位置に割り当てる計算することが可能であろう。プログラムを実行するノードの最も近い場所から設定ファイル

 

IV。RDDを作成します

例えばHDFSとして1.外部データソース、

ヴァルRDD1 = sc.textFile(「HDFS://192.168.88.111:9000 /データ/ data.txtを」)

 

2. sc.parallelize 作成

ヴァルRDD1 = sc.parallelize(配列(1,2,3,4,5,6,7,8))

 

ファイブ.RDDタイプ:変革行動

 

1.Transformation(換算):算出された遅延:遅延、並列化、地図、reduceByKey

2.Action(アクション):、すぐに作業を実行している収集、saveAsTextFile

 

                                                                                                                            ----滞在ハングリー。滞在学習

                                                                                                                                                 Jackson_MVP

                                                                                                                                                                          

 

 

公開された108元の記事 ウォン称賛10 ビュー4317

おすすめ

転載: blog.csdn.net/Jackson_mvp/article/details/104064889