タスクとリソースのSPARK

複数の入力がHDFSにファイルとして格納されていてもよい、各ファイルは、ブロックと呼ばれるブロックの数を含んでいます。これらのファイルが入力として読み取られる場合火花、データのInputFormatに対応する特定のフォーマットに従って解析され、典型的には、注目スパンはInputSplitファイルできない、InputSplitと呼ばれる、入力ブロック複数の断片に結合されています。タスクは、これらの入力の特定の断片を生成します。タスクとInputSplitは、1対1の関係です。これらの特定のタスクの各々は、執行を実行するクラスタ上のノードに割り当てられます

1)各ノードは、1人の以上の執行を提供することができます

コアの数によって2)各執行、各コアは唯一のタスクのそれぞれの執行のために一度に行うことができます

3)各タスクの実行結果は、RDDのpartiton目標を生成することです

注:ここでのコアはワーカースレッドがエグゼキュータであるように、コアの物理CPUコアの仮想マシンではなく、理解することができるということです。そして、同時実行タスクエグゼキュータを実行*数=キュータあたりのコア数。パーティションの数について

1)sc.textFile例えば、ステージを読み出すデータについては、入力ファイルがはるかに初期タスクを必要とするInputSplitの数に分割されています

2)地図段階でのパーティションの数は変わりません

3)例えば配分操作収束合成は、パーティションの数を指定し、そしていくつかのオペレータが設定可能である、に関連する特定の操作で重合後の段階、重合トリガRDDシャッフル操作、パーティション番号RDDを減らし

RDDは、時間の計算には、各地区は、タスクを再生されますので、パーティションのRDDの数は、タスクの合計数を決定します。(エグゼキュータ)アプリケーションと各計算ノード監査のためのコンピューティングノードの数は、タスクをパラレルに実行することができ、同じ時間を決定します

例えば、RDDの100の区画を有し、その後、時間の計算は、それが2つの2コアのそれぞれ、100タスクを生成する10個の計算ノードのリソースを設定し、同じ時間は、タスクの並列数はRDDで計算、20であります私たちは5ラウンドを必要としています。同じコンピューティングリソースは、あなたが101タスクを持っている場合は、唯一残っているコアにタスクを実行するために、最終ラウンドで6ラウンドを必要とするアイドルです。同じリソースの場合は、唯一の2つのパーティション、1時間2つだけのタスクの実行リソースの無駄が生じ、残りの18核アイドルを、RDD。これは、スパークチューニングで、RDDは、パーティションが増加タスクの並列アプローチの数を増やします

おすすめ

転載: www.cnblogs.com/xiangyuguan/p/11482855.html