Spark运行时程序调度 - 代码天地

Spark运行时程序调度

其他 2018-07-27 14:35:32 阅读次数: 0

一，Spark运行时程序调度

1，Spark应用程序会在一个物理节点上有驱动程序（Driver）

2，驱动程序（Driver）会分发每个tasks到Worker节点

3，Worker节点就会返回result到Dirver节点

二，Spark程序运行流程

1，分布式文件系统（File system）--加载数据集（RDD）

2，transformations延迟执行--针对RDD的操作

3，Action触发执行

三，Spark为何要做缓存

1，lines = sc.textFile(“hdfs://...”)
   加载进来成为RDD
2，errors = lines.filter(_.startsWith(“ERROR”))
   Transformation转换
3，errors.persist()
   缓存RDD
4，Mysql_errors = errors.filter(_.contain(“MySQL”)).count
   Action执行
5，http_errors = errors.filter(_.contain(“Http”)).count
  Action执行

由上面的代码可以看出

1和2是Transformation操作，

4是Action操作就会触发Job,

如果不做3的缓存那一步，5就会找不到errors这个RDD

猜你喜欢

转载自blog.csdn.net/afafawfaf/article/details/81038386

Spark运行时程序调度

程序运行时间

Spark-运行时架构

spark:清空程序运行时的所有（cache）缓存块

Spark入门（七）：Spark运行时架构

1026. 程序运行时间

如何计算程序运行时间

java 获得程序运行时间

Qt测算程序运行时间

计算程序运行时间

Python计算程序运行时间

计算python程序运行时间

程序运行时间(15)

测试python程序运行时间

输出程序运行时长的代码

ubuntu 查看程序运行时间

【gettimeofday】测试程序运行时间

java程序运行时间

1026 程序运行时间(15)

PAT 1026 程序运行时间

程序运行时间计时

测试js程序运行时间

python 计时程序运行时间

scala 计算程序运行时间

1016.程序运行时间

1026 程序运行时间

输出程序的运行时间

CVI程序运行时异常整理

计算程序运行时间！！！

让程序显示运行时间

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

NEFU 117 素数个数的位数

Closest Common Ancestors (Lca,tarjan)

ELK部署

【转载】Hive笔记整理（三）

SQL语句（一）基本表的定义

关于Java web开发中的MySQL的事务语句

MFC创建自定义窗体

如何用一句话激怒程序员？

《逆袭大学》文摘——9.4 基础和应用的平衡中找到大学的节奏

【spring源码分析】@Value注解原理

每日归档

更多

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)