Spark内核架构剖析 - 代码天地

Spark内核架构剖析

其他 2020-04-08 13:19:32 阅读次数: 0

整个Spark工作流程主要分为两部分：

一、创建SparkContext

1.客户端在提交spark应用的机器提交一个Applicaton程序。

2.通过spark-submit方式在该机器上创建一个Driver(jvm进程)。

3.Driver会执行我们自己编写的Application应用程序，并会在当前机器上初始化SparkContext。

4.SparkContext在初始化的时候，做的最重要的事就是构造出DAGScheduler和TaskScheduler(它拥有自己的后台进程)。

5.TaskScheduler实际上是负责通过它的一个后台进程去连接Master，并向Master机器注册当前的Application程序。

6.Master接受到Application注册的请求之后，会使用自己的资源调度算法，在spark集群的Worker上为这个Application启动多个Executor(jvm进程)。

7.Executor启动之后会自己反向注册到TaskScheduler上去。

8.最终，所有的Executor都会反向注册到Driver上之后，Driver结束SparkContext初始化。会继续执行我们的Application程序的代码。

二、执行job和任务调度

1.执行代码，每执行到一个action算子，就会创建一个job。(一个Application中可以包含多个action和transformation)

2.job会提交给DAGScheduler,DAGScheduler会将job划分为多个stage，然后每个stage创建一个TaskSet。（内部存在一个stage划分算法）

3.将TaskSet提交到TaskScheduler。

4.TaskScheduler会将TaskSet里的每一个task提交到Executor上面执行。（内部有task分配算法）

5.Executor每接受到一个task，都会用TaskRunner来封装task，然后从线程池取出一个线程，执行这个task。(其中TaskRunne是将我们代码中要执行的算子以及函数进行拷贝和反序列化后执行Task.)

注意：

Task有两种，ShuffleMapTask和ResultTask,只有最后一个stage是ResultTask。至此，最终整个spark应用程序的执行，就是stage分批次作为taskset提交到executor执行，每个task针对RDD的一个partition，执行我们定义的算子和函数。以此类推，直到所有操作执行完为止！！！

Perkinl

发布了87 篇原创文章 · 获赞 69 · 访问量 13万+

私信关注

猜你喜欢

转载自blog.csdn.net/lp284558195/article/details/81514301

Spark内核架构剖析

Spark内核架构深度剖析

Spark:内核架构深度剖析

Spark之内核架构剖析

Spark实战（2）_Spark内核架构剖析

Spark内核架构流程深度剖析

spark 内核源码剖析一：Sprak内核架构

Spark内核解析之(3)Spark 通讯架构原理剖析

Spark内核深度剖析

深入剖析 Spark 内核（一）

Spark内核架构

【Spark二四】Spark内核源码剖析

Spark架构原理-Spark运行架构剖析

SparkContext内核架构深度剖析

Spark内核解析之(6)Spark Shuffle运行原理剖析

Spark内核解析之(8)Spark 核心组件深度剖析

Spark内核解析之(7)Spark 内存管理原理剖析

Android内核剖析之Android总架构

Spark架构原理-TaskScheduler原理剖析

spark内核架构上的程序执行流程

Spark内核架构核心组件.txt

小记--------spark内核架构原理分析

[Spark内核]通讯架构源码解析

Spark内核解析-通信架构3(六)

Spark内核源码深度剖析（12） -Checkpoint 原理

Spark内核源码深度剖析（10） -BlockManger 原理分析

Spark内核源码深度剖析（9） - Shuffle原理

Spark内核源码深度剖析（4） -Master解析

Spark内核源码深度剖析（3） - SparkContext 解析

Spark内核源码深度剖析（7） - Executor原理

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)