Spark RDD计算过程 - 代码天地

Spark RDD计算过程

其他 2018-07-11 14:53:09 阅读次数: 0

Driver给Executor发送消息,包括taskset数据
Executor接收到对应的消息
1. executor反序列化数据成任务描述
2. executor通过LaunchTask来执行Task
3. executor中的launchTask方法中,把task封装成TaskRunner,并在executor线程池中获取一个线程执行
4. 上面获取一下线程执行时,最终会调用TaskRunner对象中的run方法
5. run:
  1. 给driver发送自己正在运行的状态
  2. 反序列化task
  3. task.run执行——>调用task.runTask(),这是一个抽象方法
6. ShuffleMapTask.runTask
  1. 反序列化RDD和依赖关系
  2. rdd.iterator()——->rdd.compute()
  3. compute最终是调用我们自己定义的计算函数
  4. 从shuffleManager获取shuffleWrite,把当前的Task计算结果写入到具体的文件中,顺便把mapStatus发送给Driver的DAGSchedule的MapOutputTrack
7. ResultTask.runTask
  1. 从Driver的DAGSchedule的MapOutputTrack出获取上一个Task结果
  2. 反序列化
  3. 调用我们自己的函数执行

猜你喜欢

转载自blog.csdn.net/tanliqing2010/article/details/80375305

Spark RDD计算过程

Spark计算过程分析

Spark 计算过程分析

Spark计算模型RDD

spark rdd 转换过程

Spark RDD

[Spark]-RDD

Spark | RDD

spark==RDD

spark --RDD

spark的RDD

【Spark】RDD

Spark RDD :Spark API--Spark RDD

Spark技术内幕笔记 RDD计算执行

Spark 并行计算模型：RDD

Spark RDD计算总分与平均分

【Spark】Spark二：Spark RDD初步

Spark（三）Spark RDD编程

[Spark学习] Spark RDD详解

Spark RDD核心详解

Spark简介及RDD说明

Spark基础 | RDD编程

SPARK RDD编程指南

spark - RDD持久化

spark - RDD转成DataFrame

spark - RDD梳理

【spark】RDD创建

【spark】RDD操作

Spark RDD特点

Spark之RDD基础

今日推荐

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

最强开源大模型 Llama 3 上架 Gitee AI

虽然老乡鸡开源的不是代码，但背后的原因却让人很暖心

周排行

决策树的部分理解

STM32软件IIC的实现

RocketMQ原理解析-HA

vue-动态路由（路由的传参和接参）

利用python对Excel中的特定数据提取并写入新表

【Ubuntu】 Ubuntu16.04搭建NFS服务

Elasticsearch基础操作与对应的curl命令行，python对接实现

JVM数据存储结构 & Java的值传递和址传递

yum命令使用指南

java基础（一）：java语法基础

每日归档

更多

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)

2024-04-16(70)

2024-04-15(42)