【Spark】cache，persist，checkpoint机制 - 代码天地

【Spark】cache，persist，checkpoint机制

其他 2020-04-11 17:09:17 阅读次数: 0

checkpoint：切断RDD与父RDD的血缘关系，将当前RDD存储于HDFS等外部系统。优点：1）避免占用过多的存储资源存储长的RDD依赖关系；2）节点失败后，避免宽依赖情况下，重复计算

checkpoint原理：

1）对rdd设置检查点，rdd.checkpoint()

2）将此rdd标记为marked for checkpoint

3）job运行完成后，会调用finalRDD.docheckpoint()方法，顺着rdd血缘关系，回溯扫描。发现有"marked for checkpoint"的rdd，进行二次标记（inProgressCheckpoint），标识正在设置检查点。

4）job运行完成后，内部启动一个新的job，将标记为"inProgressCheckpoint"的rdd数据，写入HDFS或者其他系统。

5）将此rdd的父rdd设置成CheckpointRDD，血缘关系就存储下来了。如果出现节点故障，可以通过readCheckpointOrCompute方法优先从CheckpointRDD中读取HDFS中被checkpoint的数据。

6）由于此rdd会被计算两次，因此在设置checkpoint前，先将此rdd做缓存，即rdd=rdd.cache()

同一个application中便于共享数据，可以使用cache，persist。

缓存使用原则：1）被多次重复使用的RDD；2）RDD数据量不能太大，否则占用的内存或者资源过多

cache：调用persis(MEMORY_ONLY)，将RDD数据只存入内存，若内存不能存放的下，重新计算。

persist：可以选择存入内存，硬盘以及是否序列化，副本数量。但是这是临时的缓存。当application结束，driver进程，executor进程也会结束，BlockManager也会停止，其所管理的数据也会被删除。

我是旺领导

发布了61 篇原创文章 · 获赞 2 · 访问量 7302

私信关注

猜你喜欢

转载自blog.csdn.net/hebaojing/article/details/104061524

【Spark】cache，persist，checkpoint机制

[spark 面试] cache/persist/checkpoint

Spark中cache、persist、checkpoint

spark 的checkpoint与cache、persist的区别

spark中的cache() persist() checkpoint()之间的区别

Spark RDD的cache/persist/checkpoint区别

【总结】论spark中的cache/persist/checkpoint

Spark cache和checkpoint机制

RDD中的cache() persist() checkpoint()

Spark系列——缓存（cache/persist）与检查点（checkpoint）以及二者的对比

Spark-Cache与Checkpoint

Spark中的cache和persist

Spark之 cache()和persist()

persist与checkpoint

Spark checkpoint机制简述

spark-checkpoint机制

Spark | checkpoint机制

RDD的Cache、Persist、Checkpoint的区别和StorageLevel存储级别划分

spark中cache和persist的区别

Spark面试中的cache和persist

（转）Spark中cache和persist

spark中的cache和persist的区别

Spark中Cache与Persist的巅峰对决

Spark中persist和cache的区别

spark rdd---checkpoint机制

flink超越Spark的Checkpoint机制

spark -- RDD容错机制Checkpoint

spark中cache和checkpoint使用

spark（三）：blockManager、broadcast、cache、checkpoint

【Spark三十八】Spark Checkpoint机制

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

循环神经网络（rnn）讲解

Tigao教程四：单独的关节运动

金蝶K3WISE15.0-注册套打教程

如何在Mac上配置Kubernetes

Android应用结束自身进程的方法

SpringMVC学习十三拦截器栈

中国驻洛杉矶总领馆举行新春招待会

HttpClient get post 发送

11 - three.js 笔记 - 绘制三维字体模型

Mysql递归获取某个父节点下面的所有子节点和子节点上的所有父节点

每日归档

更多

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)