Spark-RDD懒加载 - 代码天地

Spark-RDD懒加载

其他 2018-07-21 03:35:11 阅读次数: 0

Transformation 操作是延迟计算的，也就是说从一个 RDD 转换生成另一个 RDD 的转换操作不是马上执行，需要等到有 Acion 操作的时候才会真正触发运算。

Transformation返回的数据类型是一个RDD

Action 算子会触发 Spark 提交作业（Job），并将数据输出 Spark系统

Action返回的类型是一个其他的数据类型

详细解说:

Transformation操作和Action操作的区别在于Spark计算RDD的方式不同。

只有当代码中用Action操作时，spark才会进行计算否则是不会进行计算的，这种策略刚开始看起来可能会显得很奇怪，不过在大数据领域中是很有道理的。比如我读取一个文件中的数据然后进行过滤，然后Action算子first取得第一行。

如果spark在我们运行sc.textFile的时候就把文件中所有的读取并存储进来的话会消耗很多的存储空间，更不要说我们紧接着就要就行过滤操作了。

相反，一旦Spark了解了，所有的Transformation算子以后(spark会在内部记录下所要求执行操作的相关信息)在Action算子first中，Spark只需要扫描文件直到找到第一个匹配的行为止，而并不需要读取整个文件

猜你喜欢

转载自blog.csdn.net/qq_33982605/article/details/79831585

Spark-RDD懒加载

Spark-RDD的特点

spark-RDD

Spark-RDD算子

Spark-RDD编程

SPARK-RDD 详解

1.5.1.1 Spark-RDD

spark-RDD源码分析

SPARK-RDD持久化

Spark-RDD常用算子

Spark-RDD高级算子

Spark-RDD特点及RDD算子

spark-RDD vs DataFrame vs DataSet

spark-RDD写入数据库

Spark-RDD之Partition源码分析

深入理解spark－rdd详解

Spark-RDD、Dataset、DataFrame互相转换

Spark-RDD 模型以及运行原理

Python Spark-RDD 常用用法

黑哥讲解spark-RDD编程

Spark-RDD编程之持久化操作

Spark-RDD编程之常见转换操作

Spark-RDD编程之常见执行操作

spark-RDD(弹性分布式数据集)

Spark-RDD核心抽象（第二天）

大数据开发-Spark-RDD的持久化和缓存

Spark-RDD论文《Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster 》有感

Spark读取普通RDD加载为DataFrame

Spark RDD

[Spark]-RDD

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

循环神经网络（rnn）讲解

Tigao教程四：单独的关节运动

金蝶K3WISE15.0-注册套打教程

如何在Mac上配置Kubernetes

Android应用结束自身进程的方法

SpringMVC学习十三拦截器栈

中国驻洛杉矶总领馆举行新春招待会

HttpClient get post 发送

11 - three.js 笔记 - 绘制三维字体模型

Mysql递归获取某个父节点下面的所有子节点和子节点上的所有父节点

每日归档

更多

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)