Spark之 cache()和persist()

其他 2019-04-03 18:34:35 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/SuperBoy_Liang/article/details/81171342

×

Spark之cache()和persist()

SuperBoy_Liang

RDD的持久化也就是说假如我们从hdfs读取文件，形成RDD。当我们对RDD进行持久化操作之后，
，然后再针对该RDD进行action操作（这里我们假设执行count操作，中间可能经历了一系列transformation操作），虽然第一次count()操作执行完了，但是也不会清除掉RDD中的数据，而是将其缓存在内存或者磁盘上。当第二次再执行count操作时，就不会重新从hdfs上读取数据，形成新的RDD，而是直接从RDD所在的所有节点的缓存中直接读取，对数据直接执行count操作，避免了重复计算。所以如果我们合理使用RDD的持久化机制，可以有效提高应用程序的性能。

从源码来看调用cache()方法，内部调用persist()方法 :

 def cache(): this.type = persist()

persist()方法的默认的sotrageLevel 是MEMORY_ONLY，所以cache()方法默认使用内存缓存。

  def persist(): this.type = persist(StorageLevel.MEMORY_ONLY)

  def persist(newLevel: StorageLevel): this.type = {
 // 如果用户设置了checkpoint，我们需要覆盖旧的storage level。
 //   checkpoint机制会将RDD的数据容错到文件系统上（比如说
hdfs），如果在对RDD进行计算的时候，发现存储的数据不在了，
会先找一下checkpoint数据，如果有就是用checkpoint的数据，就不
需要去计算了。
   if (isLocallyCheckpointed){
     persist(LocalRDDCheckpointData.transformStorageLevel(newLevel), allowOverride = true)
    }else{
      persist(newLevel, allowOverride = false)
   }

猜你喜欢

转载自blog.csdn.net/SuperBoy_Liang/article/details/81171342

Spark之 cache()和persist()

Spark中的cache和persist

spark中cache和persist的区别

Spark面试中的cache和persist

（转）Spark中cache和persist

spark中的cache和persist的区别

Spark中persist和cache的区别

spark中cache和persist的区别，rdd缓存源码解析

2017.06.15--spark中cache和persist的区别

Spark中cache和persist的作用以及存储级别

Spark中cache和persist函数区别详解

[spark 面试] cache/persist/checkpoint

Spark中cache、persist、checkpoint

spark 的checkpoint与cache、persist的区别

【Spark】cache，persist，checkpoint机制

spark中的cache() persist() checkpoint()之间的区别

Spark RDD的cache/persist/checkpoint区别

【总结】论spark中的cache/persist/checkpoint

Spark中Cache与Persist的巅峰对决

Spark 之 persist

spark的cache(),persist(),unpersist()方法及需要注意的细节

Spark中cache、persist、checkPoints函数区别详解

RDD中cache和persist的区别

Spark系列——缓存（cache/persist）与检查点（checkpoint）以及二者的对比

Spark cache和checkpoint机制

RDD的Cache、Persist、Checkpoint的区别和StorageLevel存储级别划分

Spark和hadoop对比之spark解析

（转）Java Cache系列之Cache概述和Simple Cache

SPARK之任务和资源

spark中cache和checkpoint使用

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

循环神经网络（rnn）讲解

Tigao教程四：单独的关节运动

金蝶K3WISE15.0-注册套打教程

如何在Mac上配置Kubernetes

Android应用结束自身进程的方法

SpringMVC学习十三拦截器栈

中国驻洛杉矶总领馆举行新春招待会

HttpClient get post 发送

11 - three.js 笔记 - 绘制三维字体模型

Mysql递归获取某个父节点下面的所有子节点和子节点上的所有父节点

每日归档

更多

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)