Spark性能优化（4）—— 对多次使用的 RDD 进行持久化或 Checkpoint

其他 2019-01-11 10:21:05 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/u012292754/article/details/86259131

1 对多次使用的 RDD 进行持久化或 Checkpoint

在程序中，对某一个 RDD,基于它进行了多次 transformation 或者 action 操作。那么就非常有必要对其进行持久化操作，以避免对一个 RDD 反复进行计算。
此外，如果要保证在 RDD 持久化数据可能丢失的情况下，还要保证高性能，那么可以对RDD 进行 Checkpoint 操作。

1.1 案例

在这里插入图片描述

这里对一个 RDD 前后进行了2次操作，第一次的时候，从第一个RDD开始，先计算出第一个 RDD ,然后再计算第二个 RDD ,接着往后执行。
但是，后面第二次对 RDD 进行操作的时候，由于 RDD 数据在执行完之后，默认情况下，是很可能会立即被丢弃的。那么这个时候就需要重新计算第一个、第二个 RDD;
可能，持久化的存储在 BlockManager 中的数据，可能会丢失，如果持久化的数据丢失了，那么第二次计算该 RDD 时，会发现 BlockManager 中没有其数据，此时会尝试读取其 checkpoint 数据。但是如果读取不出来，那么就只能重新计算第一个 RDD 和第二个 RDD 了。
所以，针对这种情况，如果要求持久化数据可能丢失的情况下，还是要保证高性能，那么就在第一次计算RDD 时，消耗一些性能，对 RDD 进行 checkpoint 操作。这样，即使持久化数据丢失了，也可以直接读取其 checkpoint 数据

猜你喜欢

转载自blog.csdn.net/u012292754/article/details/86259131

Spark性能优化（4）—— 对多次使用的 RDD 进行持久化或 Checkpoint

Spark优化(三)：对多次使用的RDD进行持久化

Spark RDD持久化（缓存），Checkpoint

Spark RDD 持久化（CheckPoint 检查点）

spark rdd---checkpoint机制

spark -- RDD容错机制Checkpoint

RDD血缘关系的追溯和持久化、checkPoint语法

spark - RDD持久化

spark RDD持久化

【SPARK】- RDD持久化

Spark的RDD持久化

spark troubleeshooting之错误的持久化方式以及checkpoint的使用

Spark RDD的cache/persist/checkpoint区别

Spark如何删除无效rdd checkpoint

Spark中RDD容错机制Checkpoint

大数据：RDD持久化，RDD数据是过程数据，缓存，checkpoint，

spark中的checkpoint，持久化和checkpoint的区别

spark性能调优-rdd重构和rdd持久化

Spark- RDD持久化

SPARK-RDD持久化

spark -- RDD的持久化/缓存

Spark RDD持久化机制

Spark持久化以及checkpoint剖析

Spark持久化以及checkpoint原理分析

RDD容错机制Checkpoint

spark笔记之RDD容错机制之checkpoint

Spark的RDD函数传递、依赖关系、缓存及CheckPoint

Spark之SparkCore:RDD-数据核心/API【CheckPoint】

spark 大型项目实战(五十一):troubleshooting之错误的持久化方式以及checkpoint的使用

Spark之【RDD编程】详细讲解(No6)——《RDD缓存与CheckPoint》

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)