Spark Review 8:Spark操作プロセスとSparkパーティションとSparkContextを簡単に説明します

1. Sparkの操作プロセスについて簡単に説明します。 

1. Sparkアプリケーションの実行環境を構築し、SparkContextを開始します
。2。SparkContextは、Executorリソースを実行するためにリソースマネージャー(スタンドアロン、Mesos、Yarmのいずれか)に適用され、
StandaloneExecutorbackend を開始し
ます。3。ExecutorがSparkContextタスクに適用されます。4。SparkContext
がアプリケーションを配布しますExecutor
5. SparkContextはDAGグラフに組み込まれ、DAGグラフをステージに分解し、TasksetをTask Schedulerに送信し、最後にTask Scheduler
がExecutorにタスク送信して実行します

 

2. Sparkパーティションについて簡単に説明します。

 Sparkのパーティショニングは2つの段階に分かれています。

分散ファイルシステムでは、ファイルはブロックに格納されます。ファイルブロックはタスクに送信され、ファイルは分割されます。シャッフルグループ化後、シャッフルグループ化は次のタスクに送信されて計算されます。デフォルトでは、各コアは一度に1つのタスク、パーティションごとに1つのタスク、および一度に1つのパーティションを実行します。

3. sparkContextについて簡単に説明します。

parkContextはSparkの入り口であり、アプリケーションの主な機能と同等です。
現在、JVMプロセスで複数のSparkContextsを作成できますが、アクティブレベルは1つだけです。
新しいSparkContextインスタンスを作成する必要がある場合は、最初にstopメソッドを呼び出して、現在のアクティブレベルのSparkContextインスタンスを停止する必要があります。

      各SparkアプリケーションはSparkContextインスタンスであり、SparkContextはSparkアプリケーションのライフサイクルであると理解できます。SparkContextが作成されると、このSparkContextを使用してRDD、アキュムレータ、ブロードキャスト変数を作成し、Sparkにアクセスできます。サービス、実行中のタスク。Sparkコンテキストは内部サービスをセットアップし、spark実行環境との接続を確立します。

 

元の記事を26件公開 賞賛された35件 訪問数707

おすすめ

転載: blog.csdn.net/csdnliu123/article/details/105605830