1. Sparkの操作プロセスについて簡単に説明します。
1. Sparkアプリケーションの実行環境を構築し、SparkContextを開始します
。2。SparkContextは、Executorリソースを実行するためにリソースマネージャー(スタンドアロン、Mesos、Yarmのいずれか)に適用され、
StandaloneExecutorbackend を開始し
ます。3。ExecutorがSparkContextタスクに適用されます。4。SparkContext
がアプリケーションを配布しますExecutor
5. SparkContextはDAGグラフに組み込まれ、DAGグラフをステージに分解し、TasksetをTask Schedulerに送信し、最後にTask Scheduler
がExecutorにタスクを送信して実行します
。
2. Sparkパーティションについて簡単に説明します。
Sparkのパーティショニングは2つの段階に分かれています。
分散ファイルシステムでは、ファイルはブロックに格納されます。ファイルブロックはタスクに送信され、ファイルは分割されます。シャッフルグループ化後、シャッフルグループ化は次のタスクに送信されて計算されます。デフォルトでは、各コアは一度に1つのタスク、パーティションごとに1つのタスク、および一度に1つのパーティションを実行します。
3. sparkContextについて簡単に説明します。
各SparkアプリケーションはSparkContextインスタンスであり、SparkContextはSparkアプリケーションのライフサイクルであると理解できます。SparkContextが作成されると、このSparkContextを使用してRDD、アキュムレータ、ブロードキャスト変数を作成し、Sparkにアクセスできます。サービス、実行中のタスク。Sparkコンテキストは内部サービスをセットアップし、spark実行環境との接続を確立します。