spark-运行原理剖析 - 代码天地

spark-运行原理剖析

其他 2020-03-20 16:17:36 阅读次数: 0

spark-运行原理剖析

说明：spark运行一个job大致过程如下

1）通过sparksubmit（shell）提交应用程序application

2）在应用提交的机器上创建driverActior进程，创建driver

3） Driver进程读取代码,首先创建sparkContext上下文

4） SparkContext上下文包括两个重要组件：

TaskScheduler:

（a）与master通信，注册应用

（b）接收executro的反向注册，让driver获取到executor列表

（c）接收DAGScheduler分解的task,将task按批次发放到executor上进行执行

扫描二维码关注公众号，回复： 9996405 查看本文章

DAGScheduler:

（a）解析代码，每执行到一个action，就会产生一个job,job传递给DAGSchedule

（b）将job 分解为多个stage(stage根据遇到聚合如reduce算子进行划分)，每个stage生成一个taskset集合

（c）将taskset集合发送给TaskScheduler进行分发到executor上执行

5） Master注册（注册机制见后面的master注册机制原理）

Maste注册包括下面几个：

（a）应用程序的注册

（b） Driver的注册

（c） Work节点注册

6） Master接收到application 申请后，通过资源调度算法，为应用分配资源

work节点启动executor进程，executor回反向注册到driver的taskScheduler上。

Executor每接收到一个task，就会重线程池中，获取一个线程，执行task任务

运行图如下：

猜你喜欢

转载自www.cnblogs.com/javapand/p/12532290.html

spark-运行原理剖析

Spark运行原理剖析

Spark-在集群运行spark

Spark架构原理-Spark运行架构剖析

Spark-在集群上运行Spark

Spark-运行时架构

Spark-在cdh集群中运行报错

Spark-运行模式&RDD操作

Spark-编程和执行原理

Spark内核解析之(6)Spark Shuffle运行原理剖析

spark原理剖析

Spark-环境搭建

spark-数据分区

Spark- WordCount Demo

Spark->预热

Spark- Action实战

Spark- Transformation实战

Spark-资源调度

Spark-介绍

Spark-共享变量

Spark-任务调度

Spark- 数据清洗

Spark-概述-安装

Spark-监控

Spark-胡乱小记

Spark-调优

Spark PI example剖析Spark的运行流程

Spark-scheduler原理剖析

Spark Scheduler内部原理剖析

Spark 之 DAGScheduler 原理剖析

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)