コア機能.Spark

二.Spark基本的なアーキテクチャ

（1）アプリケーション：1

アプリケーションは、アプリケーションです。

（2）ジョブ：1

アクション、アクションジョブ分割操作のための操作①saveAsTextFile、それが仕事です。

②セグメンテーション：

前後には仕事を見つけるに形成され、アクションオペレータを探して

（3）ステージ：2

①reduceByKey広いシャッフル操作分割段階に応じて依存性なので、次の段階は、ジョブごとに2つです。

（ステージ=シャッフル数+1の数）

②セグメンテーション：

タイプは、分割を形成する切断ステージ遭遇した、戻ってからシャッフル/ワイド依存演算子を取得します。

最後のステージは他のステージに加えてShuffleMapStageと呼ばれ、ResultStageと呼ばれています。

③各ステージは、3つのステージ1のRDDとして、異なるRDD複数を含んでいてもよいです。

彼らは複数のタスクの実行に分割することができる④ステージ（デフォルトでは、各パーティションがタスクであろう）

⑤各RDDパーティションの異なる数を指定することができ、RDDは、図RDDに4つのパーティション、3つのパーティションのステージ2をSTAGE1

（4）タスク：7（ステージ1、ステージ4、ステージ2ステージ3）

①stage1段階、RDD 4つのパーティション、タスクも4;ステージSTAGE2、RDD 3つのパーティション、タスクも3。

②タスクは、タスク内の異なるステージの合計数の合計=。

タスクの各段階=この段階でパーティションの数の数最後の決断RDD

（1）は、HDFSに格納されている複数のファイルに入力されてもよい、各ファイルと呼ばれるブロックの数、含まブロックを。

（2）スパークこれらのファイルが入力として読み取られる場合、データがのInputFormatに対応する特定のフォーマットに従って解析され、典型的には、入力ブロックを複数の断片に結合呼ばれるInputSplit、ファイルがInputSplitにまたがることができないことに注意してください

公開された53元の記事・ウォン称賛40 ・ビュー40000 +