Spark之Spark内核工作流程 - 代码天地

Spark之Spark内核工作流程

数据库 2019-02-01 15:00:49 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/qq_34993631/article/details/86479412

这是一个较为细粒度的Spark运行流程。

我们写的Spark程序叫做Application。
Application会通过spark-submit来提交给Spark集群来运行。具体来说就是spark-submit会通过反射机制来创建和构造一个DriverAcor进程出来。这里的Driver就是我们的驱动程序，它负责执行我们的代码，当然在执行代码的时候首先会初始化SparkContext。
在初始化SparkContext的时候主要会执行两件事情。第一就是构建TaskScheduler与DAGScheduler。接下来进行详细的解释。

1)在我们写的Spark的代码中有很多的算子操作。当代码执行到每一个action的时候就会创建一个job。然后这个job会交给DAGScheduler，DAGScheduler会将job划分为多个stage，然后每个stage创建一个TaskSet再将这个TaskSet交给TaskScheduler。

2) TaskScheduler首先会向Master注册这个Application。Master在接收到注册信息之后会使用自己的资源调度算法在Spark集群的Woker上为这个Application启动多个Executor。Executor在启动之后会反向注册给TaskScheduler。这时TaskScheduler就会将TaskSet中的任务提交到Executor运行。而Executor每收到一个task都会用TaskRunner来封装这个Task，然后再取出一个线程来执行这个task。

3)Spark就是通过这样的通过Stage分批次的作为TaskSet提交到executor来执行的。其中每一个task对应着一个partition来的数据来执行。

附加说明：

上面我们提到了TaskRunner，它具体做的事情就是将我们写的代码也就是执行的算子和函数反序列化到各个工作节点去执行。
Task有两种类型，ShuffleMapTask和ResultTask，只有最后一个Stage所涉及的task为ResultTask其余都是ShuffleMapTask。

猜你喜欢

转载自blog.csdn.net/qq_34993631/article/details/86479412

Spark之Spark内核工作流程

Spark 的工作流程

spark工作流程及原理

Spark基本工作流程

Spark深入解读（二）---- 工作流程

Spark基本工作流程及YARN cluster模式原理

SKIL/工作流程/Spark上的分布式训练

Spark03_工作流程图解

Spark学习之Spark内核

Spark SQL 工作流程源码解析（三）analysis 阶段（基于 Spark 3.3.0）

Linux内核学习之Linux中断工作流程框架！

Spark on yarn工作模式。 Client和Cluster两种运行模式的工作流程、基本概念。spark工作流程

Spark Client和Cluster两种运行模式的工作流程

数据处理-Spark Worker工作流程图启动Driver源码解读

Zigbee之工作流程

springmvc之工作流程

Spark之TaskScheduler内核解析

Spark之Task内核解析

Spark之SparkContext内核解析

Spark之SparkSQL内核解析

Spark之BlockManager内核解析

Spark内核之DAGScheduler调度

Spark内核详解 (3) | Spark集群启动流程的简单分析

spark内核架构上的程序执行流程

Spark内核架构流程深度剖析

hue集成Oozie工作流调度之Spark2 Workflow

Spark内核

Spark 内核

Spark的两种核心Shuffle（HashShuffle与SortShuffle）的工作流程与源码分析（手把手看源码）

Spark之Worker工作原理

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

BPM为企业带来的实际利益

好程序员web前端分享css常用属性缩写

Java文件下载（excel）

css样式的动态添加及显示和隐藏等零碎用法

axios全局配置以及拦截器

使用Logstash来实时同步MySQL和log日志数据到ES

C++获取当前时间（年月日、时分秒、毫秒）

Odoo产品分析 (四) -- 工具板块(11) -- 网站即时聊天(1)

Java环境配置正确，但是java、javac、java -version均返回“不是内部或外部命令，也不是可运行的程序或批处理文件”？

01 官网下载各种CentOS教程（超详细版）

每日归档

更多

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)