コア機能.Spark
二.Spark基本的なアーキテクチャ
3つの関連.RDD
図I
(1)アプリケーション:1
アプリケーションは、アプリケーションです。
(2)ジョブ:1
アクション、アクションジョブ分割操作のための操作①saveAsTextFile、それが仕事です。
②セグメンテーション:
前後には仕事を見つけるに形成され、アクションオペレータを探して
(3)ステージ:2
①reduceByKey広いシャッフル操作分割段階に応じて依存性なので、次の段階は、ジョブごとに2つです。
(ステージ=シャッフル数+1の数)
②セグメンテーション:
タイプは、分割を形成する切断ステージ遭遇した、戻ってからシャッフル/ワイド依存演算子を取得します。
最後のステージは他のステージに加えてShuffleMapStageと呼ばれ、ResultStageと呼ばれています。
③各ステージは、3つのステージ1のRDDとして、異なるRDD複数を含んでいてもよいです。
彼らは複数のタスクの実行に分割することができる④ステージ(デフォルトでは、各パーティションがタスクであろう)
⑤各RDDパーティションの異なる数を指定することができ、RDDは、図RDDに4つのパーティション、3つのパーティションのステージ2をSTAGE1
(4)タスク:7(ステージ1、ステージ4、ステージ2ステージ3)
①stage1段階、RDD 4つのパーティション、タスクも4;ステージSTAGE2、RDD 3つのパーティション、タスクも3。
②タスクは、タスク内の異なるステージの合計数の合計=。
タスクの各段階=この段階でパーティションの数の数最後の決断RDD
図II
(1)は、HDFSに格納されている複数のファイルに入力されてもよい、各ファイルと呼ばれるブロックの数、含まブロックを。
(2)スパークこれらのファイルが入力として読み取られる場合、データがのInputFormatに対応する特定のフォーマットに従って解析され、典型的には、入力ブロックを複数の断片に結合呼ばれるInputSplit、ファイルがInputSplitにまたがることができないことに注意してください