Spark任务数据倾斜处理 - 代码天地

Spark任务数据倾斜处理

其他 2020-04-03 10:43:33 阅读次数: 0

现象：同一个stage中大部分task执行很快少数几个很慢，原本正常的任务，突然OOM，也i可能是数据倾斜。

定位：代码中有shuffle算子，根据慢的task定位stage找到对应的shuffle算子

解决方法：

对数据进行ETL预处理（Hive表有倾斜）
过滤少数没有意义的倾斜的key（可以通过sample算子抽样动态判断）
提高shuffle的并行度（reduceBykey指定分区数）
对原本相同的key加随机前缀，变成不同的key，先做局部聚合，再做全局聚合（同一个key数据量多）、
小表join大表时，可以把小表做广播变量，sparksql可以配spark.sql.autoBroadcastJoinThreshode=10485760（10MB），如果表小于这个参数sparksql默认是不走shuffle去join的，采用广播变量的方式来map join
（一大一小）采样倾斜的key并分拆join，将倾斜的key从原来的RDD拆出来，形成一个RDD，两个RDD分别join，再union，倾斜key的RDD可以加前缀与join的RDD进行join
（两大表）使用随机前缀和扩容RDD进行join和6的过程相同，只不过没有拆左RDD，对所有RDD加前缀

发布了17 篇原创文章 · 获赞 4 · 访问量 463

私信关注

猜你喜欢

转载自blog.csdn.net/dhyaishuai/article/details/105170797

Spark任务数据倾斜处理

Spark处理数据倾斜

spark数据倾斜处理

spark数据倾斜处理方案

spark数据倾斜处理实践

当 Spark 任务出现数据倾斜的问题时该如何处理呢？

Spark DataFrame处理数据倾斜问题

【Spark系列】：如何处理数据倾斜

解惑:这个SPARK任务是数据倾斜了吗？

spark 数据倾斜

spark数据倾斜

[spark 面试]数据倾斜

spark 数据倾斜优化

Spark数据倾斜问题

Spark 数据倾斜的整理

【Spark】数据倾斜

Hadoop数据倾斜处理

Spark数据倾斜调优

Spark调优：数据倾斜

Spark（九）————数据倾斜解决

spark 数据倾斜调优

Spark调优数据倾斜

Spark性能调优与故障处理之(5)Spark 数据倾斜优化

[spark 面试]Spark解决数据倾斜问题

【Spark篇】---Spark解决数据倾斜问题

大数据实时计算Spark学习笔记（7）—— RDD 数据倾斜处理

Spark数据倾斜_产生原因及定位处理办法_生产环境

Hive的数据倾斜处理方案

Spark性能优化：数据倾斜调优

spark性能优化-数据倾斜调优

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

返回指定时间格式

fopen函数中的mode参数

Java 单例模式探讨

Flex remoteobject工作原理探讨

寻找mplayer的便捷安装方法

30天了解30种技术系列---(26)MySQL自动化运维工具Inception

关于Jboss/Tomcat/Jetty的JNDI定义123

程序减肥，strip，eu-strip 及其符号表

AsyncTask、View.post(Runnable)、ViewTreeObserver三种方式总结frame animation自动启动

Json和Bean的互相转换

每日归档

更多

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)