【原创】大叔经验分享（39）spark cache unpersist级联操作 - 代码天地

【原创】大叔经验分享（39）spark cache unpersist级联操作

其他 2019-03-13 18:18:01 阅读次数: 0

问题：spark中如果有两个DataFrame（或者DataSet），DataFrameA依赖DataFrameB，并且两个DataFrame都进行了cache，将DataFrameB unpersist之后，DataFrameA的cache也会失效，官方解释如下：

When invalidating a cache, we invalid other caches dependent on this cache to ensure cached data is up to date. For example, when the underlying table has been modified or the table has been dropped itself, all caches that use this table should be invalidated or refreshed.

However, in other cases, like when user simply want to drop a cache to free up memory, we do not need to invalidate dependent caches since no underlying data has been changed. For this reason, we would like to introduce a new cache invalidation mode: the non-cascading cache invalidation.

之前默认的模式为regular mode，这种模式下为了保证被cache数据是最新的（没有过期），会对cache的unpersist进行级联操作，即清空所有依赖（包括间接依赖）该cache的其他cache；
从spark2.4开始引入了一个新的模式：non-cascading mode，这个模式下不会对cache的unpersist进行级联操作；

DataFrame/DataSet的cache操作默认用的level是MEMORY_AND_DISK，除非手工指定MEMORY，并且确认内存足够，否则unpersist之前的cache看起来没有必要；

参考：
https://issues.apache.org/jira/browse/SPARK-21478
https://issues.apache.org/jira/browse/SPARK-24596
https://issues.apache.org/jira/browse/SPARK-21579

猜你喜欢

转载自www.cnblogs.com/barneywill/p/10524805.html

【原创】大叔经验分享（39）spark cache unpersist级联操作

spark的cache(),persist(),unpersist()方法及需要注意的细节

【SparkAPI JAVA版】JavaPairRDD——cache、persist、unpersist、getStorageLevel（四）

【原创】大叔经验分享（65）spark读取不到hive表

springBoot cache操作2

SpringBoot Cache操作

Spark Cache性能测试

spark sql cache

Spark-Cache与Checkpoint

玩玩Spark Cache

CPU Cache分享

【原创】大叔经验分享（109）emacs使用

【原创】大叔经验分享（113）markdown语法

cache

@Cache

cache?

【原创】大叔经验分享（60）hive和spark读取kudu表

【原创】大叔经验分享（84）spark sql中设置hive.exec.max.dynamic.partitions无效

AOP中Cache操作实现

Cache的clean和invalidate操作

spark中缓存cache的使用

Spark cache和checkpoint机制

spark cache (几种缓存方法)

Spark中的cache和persist

[spark 面试] cache/persist/checkpoint

Spark之 cache()和persist()

Spark中cache、persist、checkpoint

spark 的checkpoint与cache、persist的区别

【Spark】cache，persist，checkpoint机制

Spark Cache源代码分析

今日推荐

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

【转】spring中对控制反转和依赖注入的理解

tms webcore 安装和使用

java程序员进阶相关书籍

SpringMVC接受请求参数、

如何保存训练好的机器学习模型

MyEclipse、Eclipse设置项目JDK的三个地方

商超行业微信小程序开发定制一般多少钱（行业技术人员解读）

Markdown编辑器语言——30分钟入门到到精通

Linux系统下MongoDB的简单安装与基本操作

Power Strings

每日归档

更多

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)