spark:清空程序运行时的所有（cache）缓存块

其他 2020-04-04 18:34:17 阅读次数: 0

spark:清空程序运行时的所有（cache）缓存块

为啥要用到缓存

在我们编写spark程序的时候，经常会用到action算子，当程序执行到action操作的代码时，开始真正地执行计算，这个时候耗时比较长。然而，当我们程序里面的action算子计算出来的需要被多次使用的时候，为了不在让程序重复再次计算。将这个action算子计算的结果进行persist或者cache（缓存）的操作，可以节省程序的运行时间。

出现的问题

如果当程序里面做了很多缓存（persist 或者cache）的操作。整个集群的可用内存将会减少，可能会影响后续的代码执行（可能会因为内存不足，而报错）。

如何清除缓存

如果编写代码思路比较清晰的话，可以很清楚地记得哪个rdd或者dataSet进行了缓存的操作。可以直接调用 unpersist操作
一个简单的例子如下：

//  假设注册了一张teacher表，dataFrame读取了 这张表
val data:DataFrame = spark.sql("SELECT * FROM teacher")
// 程序开始进行缓存cache(默认存储到内存当中)，然后调用action算子触发程序执行
data.cache.show()
// 调用下方代码，可以清除掉刚才得到的缓存
data.unpersist()

如果思路不够清晰，或者程序比较长，写着写着就忘记了哪些数据进行缓存过了，这里提供一个清除所有缓存在spark环境里面的数据的操作:
如下所示：（写这篇水文的目的）

    val ds: collection.Map[Int, RDD[_]] = spark.sparkContext.getPersistentRDDs
    ds.foreach(x => {
      x._2.unpersist()
    })

执行的原理大致如下:
spark.sparkContext的下文中通过调用getPersistentRDDs的方法，可以得到缓存区域里面所有的数据缓存信息。然后返回一个集合，通过循环遍历这个集合，调用unpersist的方法，便可以将这个缓冲区域里面的所有数据清空！

总结

&emsp&ems;如果上述的内容有什么错误，或者是建议，又或者有什么更好的操作，请大爷们辛苦辛苦，评论区里帮我指正一下。谢谢~ mua~

善皮之

发布了56 篇原创文章 · 获赞 7 · 访问量 1万+

私信关注

猜你喜欢

转载自blog.csdn.net/OldDirverHelpMe/article/details/104636204

spark:清空程序运行时的所有（cache）缓存块

Spark运行时程序调度

python 计算代码块或程序的运行时间

spark+hive运行时没有写权限

Redis清空所有缓存

程序运行时间

cache命中率对程序运行时间的影响真的很大吗？

Spark-运行时架构

代码块运行时间与其在代码中的位置有关

运行时Hook所有Block方法调用的技术实现

支持所有JavaScript运行时的HTTP网络库-Fly.js

Android 11.0 首次开机默认授予app所有运行时权限的解决方案

Spark入门（七）：Spark运行时架构

sessionStorage清空所有缓存方法

004 SpringBoot 清空Redis所有缓存

1026. 程序运行时间

Qt测算程序运行时间

计算程序运行时间

java 获得程序运行时间

如何计算程序运行时间

Python计算程序运行时间

输出程序运行时长的代码

测试python程序运行时间

计算python程序运行时间

程序运行时间(15)

ubuntu 查看程序运行时间

【gettimeofday】测试程序运行时间

java程序运行时间

1026 程序运行时间(15)

PAT 1026 程序运行时间

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

BPM为企业带来的实际利益

好程序员web前端分享css常用属性缩写

Java文件下载（excel）

css样式的动态添加及显示和隐藏等零碎用法

axios全局配置以及拦截器

使用Logstash来实时同步MySQL和log日志数据到ES

C++获取当前时间（年月日、时分秒、毫秒）

Odoo产品分析 (四) -- 工具板块(11) -- 网站即时聊天(1)

Java环境配置正确，但是java、javac、java -version均返回“不是内部或外部命令，也不是可运行的程序或批处理文件”？

01 官网下载各种CentOS教程（超详细版）

每日归档

更多

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)