Spark优化(二)：复用RDD - 代码天地

Spark优化(二)：复用RDD

其他 2018-11-10 17:14:25 阅读次数: 0

尽可能复用同一个RDD

除了要避免在开发过程中对一份完全相同的数据创建多个RDD之外，在对不同的数据执行算子操作时还要尽可能地复用一个RDD。

比如说，有一个RDD的数据格式是key-value类型的，另一个是单value类型的，这两个RDD的value数据是完全一样的，那么此时我们可以只使用key-value类型的那个RDD，因为其中已经包含了另一个的数据。

对于类似这种多个RDD的数据有重叠或者包含的情况，我们应该尽量复用一个RDD，这样可以尽可能地减少RDD的数量，从而尽可能减少算子执行的次数。

一个简单的例子

// 错误的做法。

// 有一个格式的RDD，即rdd1。

// 接着由于业务需要，对rdd1执行了一个map操作，创建了一个rdd2，而rdd2中的数据仅仅是rdd1中的value值而已，也就是说，rdd2是rdd1的子集。

JavaPairRDD rdd1 = ...

JavaRDD rdd2 = rdd1.map(...)

// 分别对rdd1和rdd2执行了不同的算子操作。

rdd1.reduceByKey(...)

rdd2.map(...)

// 正确的做法。

// 上面这个case中，其实rdd1和rdd2的区别无非就是数据格式不同而已，rdd2的数据完全就是rdd1的子集而已，却创建了两个rdd，并对两个rdd都执行了一次算子操作。

// 此时会因为对rdd1执行map算子来创建rdd2，而多执行一次算子操作，进而增加性能开销。

// 其实在这种情况下完全可以复用同一个RDD。

// 我们可以使用rdd1，既做reduceByKey操作，也做map操作。

// 在进行第二个map操作时，只使用每个数据的tuple._2，也就是rdd1中的value值，即可。

JavaPairRDD rdd1 = ...

rdd1.reduceByKey(...)

rdd1.map(tuple._2...)

// 第二种方式相较于第一种方式而言，很明显减少了一次rdd2的计算开销。

// 但是到这里为止，优化还没有结束，对rdd1我们还是执行了两次算子操作，rdd1实际上还是会被计算两次。

// 因此还需要配合“对多次使用的RDD进行持久化”进行使用，才能保证一个RDD被多次使用时只被计算一次。

猜你喜欢

转载自blog.csdn.net/Winner941112/article/details/82899333

Spark优化(二)：复用RDD

Spark常规性能调优二：RDD优化

Spark RDD （二）

（二）Spark RDD编程

Spark介绍（二）RDD

Spark（二）----RDD

Spark(二)RDD

Spark RDD (章节二)

Spark（二）————RDD变换和RDD Action

【Spark】Spark二：Spark RDD初步

spark RDD常用算子（二）

spark学习记录（二、RDD）

【Spark】（二）RDD和算子

Spark学习（二）：RDD详解

畅聊Spark（二）RDD

spark(二) rdd具体介绍

24_spark二—RDD

【Spark八十】Spark RDD API二

Spark学习二——Spark之RDD

Spark优化(一)：避免重复RDD

Spark基础概念04-RDD优化

Spark基础入门（二）--------DAG与RDD依赖

spark入门五（RDD高级算子二）

Spark学习之RDD编程（二）

Spark2.0学习（二）--------RDD详解

Apache Spark之RDD详解（章节二）

（二）Spark学习笔记之RDD

Spark学习笔记（二）：RDD编程基础

spark编程基本（二）-- RDD编程

spark笔记（二）之RDD常用算子

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)