Spark Core快速入门系列(7) | RDD的持久化和检查点 - 代码天地

Spark Core快速入门系列(7) | RDD的持久化和检查点

其他 2020-09-08 19:48:17 阅读次数: 0

目录

rdd的持久化
聚合算子默认缓存
checkpoint

rdd的持久化

在这里插入图片描述
说明
1.如果不使用持久化，那么每次调用collect，都会创建一个job每个 job 总是从它血缘的起始开始计算. 所以, 会发现中间的这些计算过程都会重复的执行.
2. 原因是因为 rdd记录了整个计算过程. 如果计算的过程中出现哪个分区的数据损坏或丢失, 则可以从头开始计算来达到容错的目的.
接下来我们来看看除了储存在内存中，还能储存在哪里！
Storage Level
在这里插入图片描述

聚合算子默认缓存

建议缓存还是要写的，养成习惯
默认进行缓存
在这里插入图片描述

在这里插入图片描述
第一次collect

第二次collect,就直接跳过了默认缓存

checkpoint

checkpoint
    检查点
    他的功能和持久化一致
    表现是不一样的
    1.checkpoint，需要手动指定目录
    2.checkpoint的时候，当第一个job执行完之后，spark内部会立即再起一个job，专门去做checkpoint
    持久后会使用第一个job的结果进行持久化
    3.checkpoint会切断他的血缘关系
    持久化不会切断血缘关系

那我们做一个实验吧
在这里插入图片描述
如果checkpoints和cache一起用

建议checkpoints和cache一起使用

猜你喜欢

转载自blog.csdn.net/qq_46548855/article/details/108112924

Spark Core快速入门系列(7) | RDD的持久化和检查点

Spark Core快速入门系列(9) | RDD缓存和设置检查点

Spark RDD 持久化（CheckPoint 检查点）

Spark Core快速入门系列(8) | RDD 的持久化

Spark Core快速入门系列(6) | Spark序列化

Spark中为RDD设置检查点

Spark Streaming（二十七）DStream的转换、输出、缓存持久化、检查点

《Spark Streaming 编程指南核心概念之缓存/持久化、检查点》

Spark Core快速入门系列(6) | RDD的依赖关系

Spark Core快速入门系列(5) | RDD 中函数的传递

Spark Core快速入门系列(4) | RDD的转换(transformation)

Spark Core快速入门系列(2) | Spark Core中编程模型的理解与RDD的创建

Spark Core快速入门系列(8) | HashPartitioner和RangePartitioner

6.RDD的持久化和检查点

Spark Core快速入门系列(7) | Spark Job 的划分

Spark的相关概念说明和检查点机制

Spark Core快速入门系列(3) | RDD的依赖关系(宽依赖和窄依赖)

Spark系列——缓存（cache/persist）与检查点（checkpoint）以及二者的对比

Spark Core快速入门系列(1) | 什么是RDD?一文带你快速了解Spark中RDD的概念!

Spark基础学习笔记21：RDD检查点与共享变量

Spark检查点checkpoint和缓存

Spark Core快速入门系列(10) | Key-Value 类型 RDD 的数据分区器

Spark Core快速入门系列(11) | 文件中数据的读取和保存

spark - RDD持久化

spark RDD持久化

【SPARK】- RDD持久化

Spark的RDD持久化

Spark Core快速入门系列(5) | Spark中job的划分

Spark设置检查点checkPoints函数详解

Spark Streaming快速入门系列（7）

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

周排行

Python环境安装与基础语法（1）——计算机基础知识

IMU预积分

ADAS中的LDW、FCW、BSD、LCA、ACC、AEB、APA、DMS代表的含义

B站笔试两道题

skyeye arm 硬件虚拟机环境的搭建

Web前端静态页面示例

数组-合并排序数组 II-简单

springcloud之版本问题启动报错

面向对象-------------匿名对象(六)

输入URL到页面呈现中间发生了什么？

每日归档

更多

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)