Spark两种运行流程

 SparkOnYarn(cluster)

1.由客户端向ResourceManager提交请求,上传jar包和配置参数到RM分配的HDFS路径

2.ResuurceManager向NodeManager申请资源,创建Spark ApplicationMaster(每一个SparkContext都有一个appmaster)

3.NM启动ApplicationMaster,并向RMMaster注册

4.ApplicationMaster找到HDFS中的文件,启动SparkContext、DAGScheduler和YARN Cluster Scheduler

5.RS向RSM注册申请container

6.RM通知NM分配Container(每个Container对应一个executor)

7.Spark ApplicationMaster直接和Container(executor)进行交互,完成分布式任务

8.程序运行完后applicationMaster向RM注销自己

cluster模式下driver运行在集群中,其实是在ApplicationMaster这个进程中

猜你喜欢

转载自www.cnblogs.com/zy0423/p/12685860.html
今日推荐