数据倾斜解决方案之sample采样倾斜key进行两次join - 代码天地

数据倾斜解决方案之sample采样倾斜key进行两次join

其他 2019-03-26 16:51:19 阅读次数: 0

这个方案的实现思路，跟大家解析一下：其实关键之处在于，将发生数据倾斜的key，单独拉出来，放到一个RDD中去；就用这个原本会倾斜的key RDD跟其他RDD，单独去join一下，这个时候，key对应的数据，可能就会分散到多个task中去进行join操作。就不至于说是，这个key跟之前其他的key混合在一个RDD中时，肯定是会导致一个key对应的所有数据，都到一个task中去，就会导致数据倾斜。

这种方案什么时候适合使用？优先对于join，肯定是希望能够采用上一讲讲的，reduce join转换map join。两个RDD数据都比较大，那么就不要那么搞了。针对你的RDD的数据，你可以自己把它转换成一个中间表，或者是直接用countByKey()的方式，你可以看一下这个RDD各个key对应的数据量；此时如果你发现整个RDD就一个，或者少数几个key，是对应的数据量特别多；尽量建议，比如就是一个key对应的数据量特别多。此时可以采用咱们的这种方案，单拉出来那个最多的key；单独进行join，尽可能地将key分散到各个task上去进行join操作。什么时候不适用呢？如果一个RDD中，导致数据倾斜的key，特别多；那么此时，最好还是不要这样了；还是使用我们最后一个方案，终极的join数据倾斜的解决方案。

就是说，咱们单拉出来了，一个或者少数几个可能会产生数据倾斜的key，然后还可以进行更加优化的一个操作；对于那个key，从另外一个要join的表中，也过滤出来一份数据，比如可能就只有一条数据。userid2infoRDD，一个userid key，就对应一条数据。然后呢，采取对那个只有一条数据的RDD，进行flatMap操作，打上100个随机数，作为前缀，返回100条数据。单独拉出来的可能产生数据倾斜的RDD，给每一条数据，都打上一个100以内的随机数，作为前缀。再去进行join，是不是性能就更好了。肯定可以将数据进行打散，去进行join。join完以后，可以执行map操作，去将之前打上的随机数，给去掉，然后再和另外一个普通RDD join以后的结果，进行union操作。

猜你喜欢

转载自blog.csdn.net/qq_25617289/article/details/88704584

数据倾斜解决方案之sample采样倾斜key进行两次join

spark 大型项目实战(五十八):数据倾斜解决方案之sample采样倾斜key进行两次join

spark 大型项目实战(五十七):数据倾斜解决方案之sample采样倾斜key进行两次join

数据倾斜之sample采样倾斜key进行俩次join

87.Spark大型电商项目-用户访问session分析-数据倾斜解决方案之sample采样倾斜key单独进行join

sample采样倾斜key并单独进行join代码

Spark（四十二）数据倾斜解决方案之使用随机数以及扩容表进行join

数据倾斜解决方案之reduce join转换成为map join

数据倾斜解决方案之将reduce join转换为map join

Spark项目实战-数据倾斜解决方案之将reduce join转换为map join

Spark（四十）数据倾斜解决方案之将reduce join转换为map join

数据倾斜解决方案

数据倾斜的解决方案

数据倾斜解决方案之使用随机key实现双重聚合

Spark项目实战-数据倾斜解决方案之使用随机key实现双重聚合

【Spark调优】大表join大表，少数key导致数据倾斜解决方案【Spark调优】小表join大表数据倾斜解决方案

数据倾斜解决方案之聚合源数据

数据倾斜解决方案之原理以及现象分析

Spark之数据倾斜完美解决方案

83.Spark大型电商项目-用户访问session分析-数据倾斜解决方案之聚合源数据以及过滤导致倾斜的key

spark 数据倾斜解决方案

spark数据倾斜分析与解决方案

spark完整的数据倾斜解决方案

Spark数据倾斜及解决方案

Spark数据倾斜解决方案2

MapReduce数据倾斜解决方案

Hive数据倾斜及解决方案

Spark 数据倾斜及其解决方案

数据倾斜的原因和解决方案

HDFS数据倾斜：balance解决方案

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

BPM为企业带来的实际利益

好程序员web前端分享css常用属性缩写

Java文件下载（excel）

css样式的动态添加及显示和隐藏等零碎用法

axios全局配置以及拦截器

使用Logstash来实时同步MySQL和log日志数据到ES

C++获取当前时间（年月日、时分秒、毫秒）

Odoo产品分析 (四) -- 工具板块(11) -- 网站即时聊天(1)

Java环境配置正确，但是java、javac、java -version均返回“不是内部或外部命令，也不是可运行的程序或批处理文件”？

01 官网下载各种CentOS教程（超详细版）

每日归档

更多

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)