Spark性能调优---fastutil优化数据格式

其他 2018-12-23 15:23:47 阅读次数: 0

Spark中应用fastutil的场景：

1、如果算子函数使用了外部变量；那么第一，你可以使用Broadcast广播变量优化；第二，可以使用Kryo序列化类库，提升序列化性能和效率；第三，如果外部变量是某种比较大的集合，那么可以考虑使用fastutil改写外部变量，首先从源头上就减少内存的占用，通过广播变量进一步减少内存占用，再通过Kryo序列化类库进一步减少内存占用。

2、在你的算子函数里，也就是task要执行的计算逻辑里面，如果有逻辑中，出现，要创建比较大的Map、List等集合，可能会占用较大的内存空间，而且可能涉及到消耗性能的遍历、存取等集合操作；那么此时，可以考虑将这些集合类型使用fastutil类库重写，使用了fastutil集合类以后，就可以在一定程度上，减少task创建出来的集合类型的内存占用。避免executor内存频繁占满，频繁唤起GC，导致性能下降。

fastutil的使用

第一步：在pom.xml中引用fastutil的包

<dependency>
    <groupId>fastutil</groupId>
    <artifactId>fastutil</artifactId>
    <version>5.0.9</version>
</dependency>

List<Integer> => IntList 基本都是类似于IntList的格式，前缀就是集合的元素类型；特殊的就是Map，Int2IntMap，代表了key-value映射的元素类型。除此之外，刚才也看到了，还支持object、reference。

fastutil官网：http://fastutil.di.unimi.it/docs/overview-summary.html

猜你喜欢

转载自blog.csdn.net/u013164612/article/details/84661361

Spark性能调优---fastutil优化数据格式

spark 大型项目实战(三十一): --性能调优之在实际项目中使用fastutil优化数据格式

Spark性能优化：数据倾斜调优

spark性能优化-数据倾斜调优

Spark性能优化指南——数据倾斜和shuffle调优

Spark性能优化指南（三）（数据倾斜调优）

Spark性能优化篇三：数据倾斜调优

三、Spark性能优化：数据倾斜调优

Spark性能优化之数据倾斜调优与shuffle调优

Spark性能优化：shuffle调优

Spark性能优化：资源调优篇

Spark性能优化：开发调优篇

Spark性能优化之开发调优

Spark性能优化之资源调优

Spark性能优化之shuffle调优

四、Spark性能优化：shuffle调优

Spark性能优化 (4) | JVM 调优

Spark性能优化 (2) | 算子调优

Spark性能优化 (3) | Shuffle 调优

spark性能调优 | 内存优化

Spark性能调优之数据倾斜调优

Spark性能调优与故障处理之(5)Spark 数据倾斜优化

spark性能调优

Spark的性能调优

Spark 性能调优

Spark：性能调优

Spark系列——Spark性能调优：资源优化

Spark性能优化 (1) | 常规性能调优

spark 算子调优之使用foreachPartition优化写数据库的性能

Spark(二十五）算子调优之使用foreachPartition优化写数据库性能

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)