spark 大型项目实战(二十八): --性能调优之在实际项目中重构RDD架构以及RDD持久化 - 代码天地

spark 大型项目实战(二十八): --性能调优之在实际项目中重构RDD架构以及RDD持久化

编程语言 2018-06-19 12:15:26 阅读次数: 2

第一，RDD架构重构与优化

尽量去复用RDD，差不多的RDD，可以抽取称为一个共同的RDD，供后面的RDD计算时，反复使用。

第二，公共RDD一定要实现持久化

北方吃饺子，现包现煮。你人来了，要点一盘饺子。馅料+饺子皮+水->包好的饺子，对包好的饺子去煮，煮开了以后，才有你需要的熟的，热腾腾的饺子。

现实生活中，饺子现包现煮，当然是最好的了；但是Spark中，RDD要去“现包现煮”，那就是一场致命的灾难。

对于要多次计算和使用的公共RDD，一定要进行持久化。

持久化，也就是说，将RDD的数据缓存到内存中/磁盘中，（BlockManager），以后无论对这个RDD做多少次计算，那么都是直接取这个RDD的持久化的数据，比如从内存中或者磁盘中，直接提取一份数据。

第三，持久化，是可以进行序列化的

如果正常将数据持久化在内存中，那么可能会导致内存的占用过大，这样的话，也许，会导致OOM内存溢出。

当纯内存无法支撑公共RDD数据完全存放的时候，就优先考虑，使用序列化的方式在纯内存中存储。将RDD的每个partition的数据，序列化成一个大的字节数组，就一个对象；序列化后，大大减少内存的空间占用。

序列化的方式，唯一的缺点就是，在获取数据的时候，需要反序列化。

如果序列化纯内存方式，还是导致OOM，内存溢出；就只能考虑磁盘的方式，内存+磁盘的普通方式（无序列化）。

内存+磁盘，序列化

第四，为了数据的高可靠性，而且内存充足，可以使用双副本机制，进行持久化

持久化的双副本机制，持久化后的一个副本，因为机器宕机了，副本丢了，就还是得重新计算一次；持久化的每个数据单元，存储一份副本，放在其他节点上面；从而进行容错；一个副本丢了，不用重新计算，还可以使用另外一份副本。

这种方式，仅仅针对你的内存资源极度充足
图解：
这里写图片描述

欢迎关注，更多福利

这里写图片描述

猜你喜欢

转载自blog.csdn.net/u012957549/article/details/80724245

spark 大型项目实战(二十八): --性能调优之在实际项目中重构RDD架构以及RDD持久化

性能调优之在实际项目中重构RDD架构以及RDD持久化

spark 大型项目实战(二十六): --性能调优之在实际项目中分配更多资源

spark 大型项目实战(二十九): --性能调优之在实际项目中广播大变量

spark 大型项目实战(二十七): --性能调优之在实际项目中调节并行度

spark 大型项目实战(三十): --性能调优之在实际项目中使用Kryo序列化

spark 大型项目实战(三十二): --性能调优之在实际项目中调节数据本地化等待时长

spark 大型项目实战(三十一): --性能调优之在实际项目中使用fastutil优化数据格式

spark性能调优-rdd重构和rdd持久化

Spark大型项目实战 138讲

spark 大型项目实战(三十八): 算子调优之MapPartitions提升Map类操作性能

spark 大型项目实战(十八):用户访问session分析(十八) -- session 聚合之重构时长和步长

Spark性能调优之在实际项目中广播大变量

spark 大型项目实战(二十):用户访问session分析(二十) --session随机抽取之实现思路分析

spark 大型项目实战(四十八):troubleshooting之解决算子函数返回NULL导致的问题

【视频分享】Spark大型项目实战 138讲

spark 大型项目实战(二十五):top10热门品类(二) --获取Top10 实现

spark 大型项目实战(五十一):troubleshooting之错误的持久化方式以及checkpoint的使用

spark 大型项目实战(三十五):--Shuffle调优之原理概述

spark 大型项目实战(三十七): --Shuffle调优之HashShuffleManager与SortShuffleManager

spark 大型项目实战(四十三):算子调优之reduceByKey本地聚合介绍

spark 大型项目实战(四十二):算子调优之reduceByKey本地聚合介绍

Spark Streaming（二十八）性能调优

spark 大型项目实战(二十四):用户访问session分析(二十四) --top10热门品类之需求回顾以及实现思路分析

spark 大型项目实战(二十三):用户访问session分析(二十三) --session随机抽取之根据随机索引进行抽取

spark 大型项目实战(二十二):用户访问session分析(二十二) --session随机抽取之按时间比例随机抽取算法实现

spark 大型项目实战(二十一):用户访问session分析(二十一) --session随机抽取之计算每天每小时session数量

spark 大型项目实战(四十): 算子调优之使用foreachPartition优化写数据库性能

spark 大型项目实战(五十八):数据倾斜解决方案之sample采样倾斜key进行两次join

spark 大型项目实战(三十三): --JVM调优之原理概述以及降低cache操作的内存占比

今日推荐

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

【转】spring中对控制反转和依赖注入的理解

tms webcore 安装和使用

java程序员进阶相关书籍

SpringMVC接受请求参数、

如何保存训练好的机器学习模型

MyEclipse、Eclipse设置项目JDK的三个地方

商超行业微信小程序开发定制一般多少钱（行业技术人员解读）

Markdown编辑器语言——30分钟入门到到精通

Linux系统下MongoDB的简单安装与基本操作

Power Strings

每日归档

更多

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)