spark - 性能优化小keys - 代码天地

spark - 性能优化小keys

其他 2018-05-07 10:37:53 阅读次数: 4

1.Spark现在主推的是dataset的api，越来越多的算子可以基于dataset去做，dataset基于天然自带的优化引擎，但是dataset操控能力不如RDD，如果你是大神你应该用的是RDD。

2.reduceByKey和groupbykey：reduceByKey会在map端先进行reduce聚合操作，而groupbykey不会提前进行聚合操作，把所有的数据全部传到reduce端，shuffle数据条数更多。

3.coalesce：使用coalesce重新设置分区数，当使用了filter算子之后，数据分区内的数据量会存在较大差异，存在数据碎片现象，使用coalesce（numpartition,shuffle = true）重新设置新的分区数目，一般设置一个更小的分区属。

4.spark内存参数设置；

spark.shuffle.memoryFraction：默认占用20%，如果计算依赖shuffle可以调高

spark.storage.memoryFraction: 默认占用60%，缓存实例数据，如果计算比较依赖缓存数据，可以将比例调高

5.并行度设置：

spark.default.parallelism：建议至少设置100，最好是700左右，executor-cores 决定了executor中的task并行数量，默认并行度太小的情况下，无法充分发挥executor并行能力。

官方推荐：task数量设置成Spark Application总cpu数目的2-3倍，意思是一共可以使用150 CPU cores，基本要设置task数量为300-500。

此外，如果机器内存资源充足，cpu资源紧张，可以将并行度设置偏小，如果cpu 资源充足，而内存资源紧张，可以设置较高的并行度，因为，内存资源在一个executor上是共享的，较大的任务，是使用更少的cpu和更多的内存资源。

待续……

猜你喜欢

转载自blog.csdn.net/u013560925/article/details/80104126

spark - 性能优化小keys

spark笔记-spark性能优化

spark--Spark性能优化

Spark性能优化总结

Spark性能优化

Spark性能优化—基础

spark性能优化指南

Spark shuffle性能优化

Spark性能优化----（概述）

Spark:性能优化

Spark性能优化【OOM】

spark性能优化（一）

Spark性能优化--基础

spark的性能优化

Spark性能优化一

spark 性能优化

spark性能优化：参数优化

spark性能优化：操作优化

【Spark】Spark优化

Spark性能优化之Task性能优化

Spark性能优化 - shuffle问题

Spark程序性能优化

Spark性能优化——高级篇

Spark性能优化——基础篇

Spark性能优化点(一）

Spark性能优化【Stack Overflow】

Spark SQL之性能优化

spark-sql性能优化

Spark性能优化资源总结

Spark性能优化--高级篇

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)