spark提交任务的模式—— standalone模式与yarn模式、资源调度与任务调度

其他 2019-01-03 08:41:51 阅读次数: 0

版权声明：本文为博主原创文章，欢迎一起学习交流。 https://blog.csdn.net/ym01213/article/details/85255442

standalone模式

在客户端提交Application，Driver在客户端启动；
客户端向Master申请资源，Master返回Worker节点；
Driver向Worker节点发送task，监控task执行，回收结果。

在客户端提交Application，客户端向Master申请启动Driver；
Master随机在一台Worker中启动Driver；
Driver启动后，向Master申请资源，Master返回资源；
Driver发送task，监控task执行，回收结果。

综上，Driver的功能：

发送task；
监控task;
申请资源；
回收结果。

Yarn模式

Yarn与Standalone是平级关系，各自相互独立。

修改spark-env.sh.template为spark-env.sh，添加export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop,使得spark找到yarn所需配置。

在客户端提交Application，Driver在客户端启动；
客户端向ResourceManager申请启动ApplicationMaster(Driver)；
ResourceManager收到请求后，随机在一台NodeManager节点上启动ApplicationMaster；
ApplicationMaster启动后，向ResourceManager申请资源，用于启动Excutor；
ResourceManager收到请求后，返回给ApplicationMaster一批NodeManager节点；
ApplicationMaster连接NodeManager，启动Excutor；
Excutor启动后，反向注册给ApplicationMaster(Driver)；
ApplicationMaster(Driver)发送task，监控task，回收结果。

在客户端提交Application，客户端向ResourceManager申请启动ApplicationMaster；
ResourceManager收到请求后，随机在一台NodeManager节点上启动ApplicationMaster(Driver)；
ApplicationMaster启动后，向ResourceManager申请资源，用于启动Excutor；
ResourceManager收到请求后，返回给ApplicationMaster一批NodeManager节点；
ApplicationMaster连接NodeManager，启动Excutor；
Excutor启动后，反向注册给ApplicationMaster(Driver)；
ApplicationMaster(Driver)发送task，监控task，回收结果。

综上，ApplicationMaster(Driver)的功能：

申请资源；
启动Excutor;
任务调度。

资源调度与任务调度

资源调度：

启动集群，Worker向Master汇报资源，Master掌握了集群资源；
当new SparkContext时，创建两个对象DAGScheduler和TaskScheduler；
TaskScheduler向Master申请资源；
Master收到请求后，找到满足资源的Worker，启动Excutor；
Excutor启动后，反向注册给TaskScheduler，Driver掌握了一批计算资源；

务调度（接资源调度后）：

Application中有一个action算子就有一个Job，Job中有RDD，RDD会形成DAG有向无环图；
DAGScheduler负责将每个Job中的DAG按照宽窄依赖切割成stage，将stage以TaskSet形式提交给TaskScheduler；
TaskScheduler负责遍历TaskSet，拿到一个个task，将task发送到Excutor中的ThreadPool中执行；
TaskScheduler监控task执行，回收结果；

综上：

TaskScheduler可以重试发送失败的task3次，如果依然失败，由DAGScheduler重试stage，重试4次，如果依然失败，则job失败，Application失败；
TaskScheduler不仅可以重试失败的task，而且可以重试执行缓慢的task，这是Spark中的推测执行机制，默认关闭，对于ETL业务场景要关闭；
如果遇到Application一直执行不完，考虑1）数据倾斜问题；2）推测执行是否开启

猜你喜欢

转载自blog.csdn.net/ym01213/article/details/85255442

spark提交任务的模式—— standalone模式与yarn模式、资源调度与任务调度

Spark资源调度与任务调度（standalone模式）

10.6 Spark资源调度和任务调度-standalone模式

spark的任务调度模式

spark源码分析--spark的任务调度（standalone模式）

spark任务调度模式，动态资源分配

Spark 集群任务提交模式

spark资源调度模式

Spark中yarn模式两种提交任务方式

Spark集群提交任务(基于YARN模式)报错(一)

spark各种模式提交任务介绍

spark的资源调度与任务调度

1.图解spark-standalone集群模式下spark任务提交流程分析

Standalone模式两种提交任务方式和Yarn模式两种提交任务方式

Spark基于YARN调度模式（五）

Spark中yarn模式两种提交任务方式（yarn-client与yarn-cluster）

spark跑YARN模式或Client模式提交任务不成功（application state: ACCEPTED）

6. spark源码分析（基于yarn cluster模式）- job任务提交、Stage划分、Stage提交

【Spark三十五】Standalone集群+Client部署模式下用户提交任务的执行流程

【Spark三十四】Standalone集群+Cluster部署模式下用户提交任务的执行流程

【Spark】Standalone集群（cluster）模式下提交任务的1个警告

【Spark篇】---Spark中yarn模式两种提交任务方式

spark standalone&&yarn模式

flink on yarn提交任务模式及相关命令

Flink任务提交模式

Spark资源调度和任务调度

Spark-任务调度与资源调度的整合

Spark资源调度和任务调度流程

Spark _09资源调度和任务调度

关于Spark的资源调度和任务调度

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)