RDD的检查点（checkpoint）机制 - 代码天地

RDD的检查点（checkpoint）机制

其他 2018-12-28 09:31:09 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/sinat_36710456/article/details/84954704

RDD的缓存能够在第一次计算完成后，将计算结果保存到内存、本地文件系统或者Tachyon中。通过缓存，Spark避免了RDD上的重复计算，能够极大地提升计算速度。但是，如果缓存丢失了，则需要重新计算。如果计算特别复杂或者计算耗时特别多，那么缓存丢失对于整个Job的影响是不容忽视的。

为了避免缓存丢失重新计算带来的开销，Spark又引入了检查点（checkpoint）机制。

缓存是在计算结束后，直接将计算结果通过用户定义的存储级别（存储级别定义了缓存存储的介质，现在支持内存、本地文件系统和Tachyon）写入不同的介质。

而检查点不同，它是在计算完成后，重新建立一个Job来计算。

为了避免重复计算，推荐先将RDD缓存，这样就能保证检查点的操作可以快速完成。

设置检查点：

//设置检查点目录 存储在HDFS上,并使用checkpoint设置检查点,该操作属于懒加载
sc.setCheckpointDir("hdfs://IP:9000/checkpoint/")
rdd.checkpoint()

猜你喜欢

转载自blog.csdn.net/sinat_36710456/article/details/84954704

RDD的检查点（checkpoint）机制

Spark RDD 持久化（CheckPoint 检查点）

Flink 检查点（checkpoint）

InnoDB CheckPoint检查点

RDD缓存与检查点

InnoDB---CheckPoint(检查点)技术

hdfs中CheckPoint(检查点)

Spark检查点checkpoint和缓存

PostgreSQL检查点(checkpoint)详解

HDFS体系结构----checkpoint检查点机制相关属性

Flink检查点机制与状态管理

说说pg中的检查点(checkpoint)之一

说说pg中的检查点(checkpoint)之二

Oracle检查点checkpoint 基础知识

checkpoint检查点，脏页回写

QTP的检查点CHECKPOINT测试方法简介

MySQL(InnoDB剖析):06---Checkpoint（检查点）技术

MySQL(InnoDB剖析):---Checkpoint（检查点）技术

查看 tensorflow 的模型保存的检查点 checkpoint 文件

Spark中为RDD设置检查点

6.RDD的持久化和检查点

loadrunner - 检查点

SSIS 检查点

postgresql检查点

(二)检查点

位图检查点

表格检查点

文本检查点

标准检查点

(十一)检查点

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)