複数の入力がHDFSにファイルとして格納されていてもよい、各ファイルは、ブロックと呼ばれるブロックの数を含んでいます。これらのファイルが入力として読み取られる場合火花、データのInputFormatに対応する特定のフォーマットに従って解析され、典型的には、注目スパンはInputSplitファイルできない、InputSplitと呼ばれる、入力ブロック複数の断片に結合されています。タスクは、これらの入力の特定の断片を生成します。タスクとInputSplitは、1対1の関係です。これらの特定のタスクの各々は、執行を実行するクラスタ上のノードに割り当てられます
1)各ノードは、1人の以上の執行を提供することができます
コアの数によって2)各執行、各コアは唯一のタスクのそれぞれの執行のために一度に行うことができます
3)各タスクの実行結果は、RDDのpartiton目標を生成することです
注:ここでのコアはワーカースレッドがエグゼキュータであるように、コアの物理CPUコアの仮想マシンではなく、理解することができるということです。そして、同時実行タスクエグゼキュータを実行*数=キュータあたりのコア数。パーティションの数について
1)sc.textFile例えば、ステージを読み出すデータについては、入力ファイルがはるかに初期タスクを必要とするInputSplitの数に分割されています
2)地図段階でのパーティションの数は変わりません
3)例えば配分操作収束合成は、パーティションの数を指定し、そしていくつかのオペレータが設定可能である、に関連する特定の操作で重合後の段階、重合トリガRDDシャッフル操作、パーティション番号RDDを減らし
RDDは、時間の計算には、各地区は、タスクを再生されますので、パーティションのRDDの数は、タスクの合計数を決定します。(エグゼキュータ)アプリケーションと各計算ノード監査のためのコンピューティングノードの数は、タスクをパラレルに実行することができ、同じ時間を決定します