SparkCore：Spark原理初探（执行流程图）

业界资讯 2020-04-24 11:01:26 阅读次数: 0

基本概念

在这里插入图片描述

名词解释

Application：指的是用户编写的Spark应用程序/代码，包含了Driver功能代码和分布在集群中多个节点上运行的Executor代码。

Driver：Spark中的Driver即运行上述Application的Main()函数并且创建SparkContext，SparkContext负责和ClusterManager通信，进行资源的申请、任务的分配和监控等

Cluster Manager：指的是在集群上获取资源的外部服务，Standalone模式下由Master负责，Yarn模式下ResourceManager负责;

Executor：是运行在工作节点Worker上的进程，负责运行任务，并为应用程序存储数据，是执行分区计算任务的进程；

RDD：Resilient Distributed Dataset弹性分布式数据集，是分布式内存的一个抽象概念；

DAG：Directed Acyclic Graph有向无环图，反映RDD之间的依赖关系和执行流程；

Job：作业，按照DAG执行就是一个作业；Job==DAG

Stage：阶段，是作业的基本调度单位，同一个Stage中的Task可以并行执行，多个Task组成TaskSet任务集

Task：任务，运行在Executor上的工作单元，一个Task计算一个分区，包括pipline上的一系列操作

基本流程

Spark运行基本流程

当一个Spark应用被提交时，首先需要为这个Spark Application构建基本的运行环境，即由任务控制节点(Driver)创建一个SparkContext，

SparkContext向资源管理器注册并申请运行Executor资源；

资源管理器为Executor分配资源并启动Executor进程，Executor运行情况将随着心跳发送到资源管理器上；

SparkContext根据RDD的依赖关系构建成DAG图，并提交给DAGScheduler进行解析划分成Stage，并把该Stage中的Task组成Taskset发送给TaskScheduler。

TaskScheduler将Task发放给Executor运行，同时SparkContext将应用程序代码发放给Executor。

Executor将Task丢入到线程池中执行，把执行结果反馈给任务调度器，然后反馈给DAG调度器，运行完毕后写入数据并释放所有资源。

流程图解

在这里插入图片描述

在这里插入图片描述

总结

Spark应用被提交–>SparkContext向资源管理器注册并申请资源–>启动Executor
RDD–>构建DAG–>DAGScheduler划分Stage形成TaskSet–>TaskScheduler提交Task–>Worker上的Executor执行Task

真情流露哦呦

发布了218 篇原创文章 · 获赞 330 · 访问量 29万+

私信关注

猜你喜欢

转载自blog.csdn.net/weixin_43563705/article/details/105699268

SparkCore：Spark原理初探（执行流程图）

Spark sql知识点和执行流程图

cas执行流程图

SpringMVC 执行流程图

springmvc执行流程图

Mybatis：执行流程图。

Hystrix原理流程图

Spark aggregator ExternalIterator 流程图

Spark运行流程图总结

Hadoop的MapReduce执行流程图

RunLoop 三：执行流程图

SSM框架执行流程图

详解：Struts2工作原理和执行流程图【转】

线程池的工作原理与源码解读及各常用线程池的执行流程图

SpringMVC - 运行流程图及原理分析

【MyBatis】MyBatis基础+原理流程图

SpringMVC运行流程图及原理分析

CSMA/CD原理及流程图

springmvc框架原理流程图

spark -- Spark原理初探

分享知识-快乐自己：Struts2框架工作原理及执行流程图（拦截器的使用）

服务端Filter执行流程图

KafkaProducer Sender 线程详解（含详细的执行流程图）

Spring MVC的执行流程图及分析描述

流程图练习

struts流程图

流程图

在线流程图

推送流程图

流程图的审批

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

BPM为企业带来的实际利益

好程序员web前端分享css常用属性缩写

Java文件下载（excel）

css样式的动态添加及显示和隐藏等零碎用法

axios全局配置以及拦截器

使用Logstash来实时同步MySQL和log日志数据到ES

C++获取当前时间（年月日、时分秒、毫秒）

Odoo产品分析 (四) -- 工具板块(11) -- 网站即时聊天(1)

Java环境配置正确，但是java、javac、java -version均返回“不是内部或外部命令，也不是可运行的程序或批处理文件”？

01 官网下载各种CentOS教程（超详细版）

每日归档

更多

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)