spark 性能优化简要总结 - 代码天地

spark 性能优化简要总结

其他 2018-08-14 00:18:58 阅读次数: 0

1.从同一个数据源尽量只创建一个rdd，后续业务逻辑复用该rdd
2.如果要对某个rdd进行多次的transformation或action操作，应当持久化该rdd
3.从数据源读取到rdd后，要尽早的进行filter操作以过滤掉无用的数据
4.尽量避免使用shffle算子，使用shuffle时，应尽量减少shuffle的数据量，可以用reducebykey 取代 groupbykey
5.熟悉算子机制，尽量使用高性能算子
6.对于打的变量，尽可能的使用广播机制
7.尽可能使用kryo优化序列化性能
8.提高程序的并行度，增加运算资源，将task少的任务repartition
9.进行序列化和压缩

猜你喜欢

转载自www.cnblogs.com/jason-dong/p/9471777.html

spark 性能优化简要总结

Spark性能优化总结

Spark性能优化资源总结

spark笔记-spark性能优化

spark--Spark性能优化

Spark性能优化

Spark性能优化—基础

spark性能优化指南

Spark shuffle性能优化

Spark性能优化----（概述）

Spark:性能优化

Spark性能优化【OOM】

spark性能优化（一）

Spark性能优化--基础

spark的性能优化

Spark性能优化一

spark 性能优化

【Spark】Spark优化

spark性能优化：参数优化

spark性能优化：操作优化

spark优化总结

Spark作业优化总结

总结：Spark性能优化上的一些总结

spark优化

spark - 性能优化小keys

Spark性能优化 - shuffle问题

Spark程序性能优化

Spark性能优化——高级篇

Spark性能优化——基础篇

Spark性能优化点(一）

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)