spark中cache和checkpoint使用 - 代码天地

spark中cache和checkpoint使用

编程语言 2019-02-22 11:50:53 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/u010800708/article/details/87875664

1）cache
cache是为了追求计算的速度
spark中计算任务在内存中，但是结果是存储在磁盘中的，所以首次运行会慢，之后会拿磁盘中的计算结果，所以后面会快很多

通过对结果的RDD分布式数据集进行cache，将计算结果缓存在内存中，这样会比缓存在磁盘中更快的读取。
比如计算log文件的行数

scala> val rdd1 = sc.textFile("hdfs://192.168.252.121:9000/cache/itstar.log")
rdd1: org.apache.spark.rdd.RDD[String] = hdfs://192.168.252.121:9000/cache/itstar.log MapPartitionsRDD[1] at textFile at <console>:24

scala> rdd1.count
res0: Long = 8031

首次执行会花费20多秒，第二次在3秒。
在执行cache后，花费在毫秒级

scala> val rdd1 = sc.textFile("hdfs://192.168.252.121:9000/cache/itstar.log")
scala> val rdd1cache = rdd1.cache
scala> rdd1cache.count

在这里插入图片描述
sc.textFile的结果都存储在内存中，所以读取非常快

2）checkpoint
checkpoint是为了保证数据计算结果的安全性
可以将计算的中间结果备份存储在hdfs的某个目录下
checkdir文件夹会自动创建

sc.checkpointDir("hdfs://192.168.252.121:9000/checkdir")

然后哪个rdd结果想先保存就可以调用checkpoint方法

scala> val rddc = rdd1.filter(_.contains("bigdata"))
scala> rddc.checkpoint

调用之后，那么rddc数据集的计算结果将会保存在checkdir目录中
比如调用rddc.count

rddc.count

在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/u010800708/article/details/87875664

spark中cache和checkpoint使用

Spark中cache、persist、checkpoint

Spark cache和checkpoint机制

一文看懂Spark中Cache和CheckPoint的区别

cache和checkpoint的区别及使用

spark中的cache() persist() checkpoint()之间的区别

【总结】论spark中的cache/persist/checkpoint

Spark-Cache与Checkpoint

[spark 面试] cache/persist/checkpoint

spark 的checkpoint与cache、persist的区别

【Spark】cache，persist，checkpoint机制

spark中的checkpoint，持久化和checkpoint的区别

spark中缓存cache的使用

Spark中的cache和persist

Spark Streaming中的checkpoint

RDD中的cache() persist() checkpoint()

Spark RDD的cache/persist/checkpoint区别

spark（三）：blockManager、broadcast、cache、checkpoint

Early stoping和checkpoint在tensofrflow中的使用

Spark Streaming的checkpoint（更新中）

spark中cache和persist的区别

Spark面试中的cache和persist

（转）Spark中cache和persist

spark中的cache和persist的区别

Spark中persist和cache的区别

spark streaming的checkpoint使用代码

spark的checkpoint

Spark中RDD容错机制Checkpoint

Spark Streaming如何使用checkpoint容错

spark中cache和persist的区别，rdd缓存源码解析

今日推荐

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

周排行

rbac——界面、权限

Apache CXF + SpringMVC 整合发布WebService

so插件化

Vue.js实战系列---图标字体制作（svg格式）

PAT乙级 1007 素数对猜想(孪生素数对) (20分) ---（C语言 + 详细注释）

被IRM保护的文档，打开失败

Calendar和Date计算日期差的小问题

win10子系统ubuntu18.4安装docker

利用Wrap Shell Script定位Android Native内存泄漏

MySQL: Transaction (Part I - Basic Concept)

每日归档

更多

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)