キック(二)SparkContext

 

コア機能.Spark

二.Spark基本的なアーキテクチャ

3つの関連.RDD

図I

(1)アプリケーション:1

アプリケーションは、アプリケーションです。

(2)ジョブ:1

アクション、アクションジョブ分割操作のための操作①saveAsTextFile、それが仕事です。

②セグメンテーション:

前後には仕事を見つけるに形成され、アクションオペレータを探して

(3)ステージ:2

①reduceByKey広いシャッフル操作分割段階に応じて依存性なので、次の段階は、ジョブごとに2つです。

(ステージ=シャッフル数+1の数)

②セグメンテーション:

タイプは、分割を形成する切断ステージ遭遇した、戻ってからシャッフル/ワイド依存演算子を取得します。

最後のステージは他のステージに加えてShuffleMapStageと呼ばれ、ResultStageと呼ばれています。

③各ステージは、3つのステージ1のRDDとして、異なるRDD複数を含んでいてもよいです。

彼らは複数のタスクの実行に分割することができる④ステージ(デフォルトでは、各パーティションがタスクであろう)

⑤各RDDパーティションの異なる数を指定することができ、RDDは、図RDDに4つのパーティション、3つのパーティションのステージ2をSTAGE1

(4)タスク:7(ステージ1、ステージ4、ステージ2ステージ3)  

①stage1段階、RDD 4つのパーティション、タスクも4;ステージSTAGE2、RDD 3つのパーティション、タスクも3。

②タスクは、タスク内の異なるステージの合計数の合計=。

    タスクの各段階=この段階でパーティションの数の数最後の決断RDD

 

 

図II

(1)は、HDFSに格納されている複数のファイルに入力されてもよい、各ファイルと呼ばれるブロックの数、含まブロックを。

(2)スパークこれらのファイルが入力として読み取られる場合、データがのInputFormatに対応する特定のフォーマットに従って解析され、典型的には、入力ブロックを複数の断片に結合呼ばれるInputSplit、ファイルがInputSplitにまたがることができないことに注意してください

 

公開された53元の記事 ウォン称賛40 ビュー40000 +

おすすめ

転載: blog.csdn.net/u012761191/article/details/93523325