1.同一のスパークとMapReduceの差
- 並列計算モデルMRの両方と
- ジョブのHadoopのジョブ
- ジョブは、マップタスクに分割して、タスクを軽減され、各タスクは独自のプロセスで実行されます
- タスクの終了には、プロセスが終了するとき
- タスクのスパークユーザー提出:アプリケーション
- ジョブアプリの複数の存在下でsparkcontextに対応するアプリケーション、
- すべてのトリガーアクションの操作は、ジョブを生成します
- ジョブは、並列または直列に実行することができます
- 各ジョブは、複数のステージを有し、ステージプロセスはRDDから分割されたジョブ間の依存関係DAGSchadulerによってシャッフルされ
- 各ステージタスクが複数あり、それぞれに分配そこTaskSchaduler組成タスクセットは、エグゼキュータを実行します
- エグゼキュータとアプリのライフサイクルは、タスクがすぐにメモリ計算を読み始めることができるように何のジョブは、実行されていない場合であっても、同じです。
- 仕事をHadoopの操作のみをマッピングし、削減、スキルが欠けています
- 氏は、IO操作の多くは、複数のジョブの関係を管理する必要が引き起こし、読み取りと書き込みHDFSの過程で繰り返されます。
- 反復計算スパークがメモリに行われています
- RDDにAPIは以下のような操作参加、GROUPBY等の数を提供します
- DAGにより良い障害を達成することができます