spark 大型项目实战(五十八):数据倾斜解决方案之sample采样倾斜key进行两次join - 代码天地

spark 大型项目实战(五十八):数据倾斜解决方案之sample采样倾斜key进行两次join

其他 2018-12-23 09:20:56 阅读次数: 0

当采用随机数和扩容表进行join解决数据倾斜的时候，就代表着，你的之前的数据倾斜的解决方案，都没法使用。

这个方案是没办法彻底解决数据倾斜的，更多的，是一种对数据倾斜的缓解。

原理，其实在上一讲，已经带出来了。
步骤：

1、选择一个RDD，要用flatMap，进行扩容，将每条数据，映射为多条数据，每个映射出来的数据，都带了一个n以内的随机数，通常来说，会选择10。

2、将另外一个RDD，做普通的map映射操作，每条数据，都打上一个10以内的随机数。

3、最后，将两个处理后的RDD，进行join操作。
这里写图片描述
sample采样倾斜key并单独进行join

将key，从另外一个RDD中过滤出的数据，可能只有一条，或者几条，此时，咱们可以任意进行扩容，扩成1000倍。

将从第一个RDD中拆分出来的那个倾斜key RDD，打上1000以内的一个随机数。

这种情况下，还可以配合上，提升shuffle reduce并行度，join(rdd, 1000)。通常情况下，效果还是非常不错的。

打散成100份，甚至1000份，2000份，去进行join，那么就肯定没有数据倾斜的问题了吧。
局限性：

1、因为你的两个RDD都很大，所以你没有办法去将某一个RDD扩的特别大，一般咱们就是10倍。

2、如果就是10倍的话，那么数据倾斜问题，的确是只能说是缓解和减轻，不能说彻底解决。

欢迎关注，更多福利

这里写图片描述

猜你喜欢

转载自blog.csdn.net/u012957549/article/details/81413046

spark 大型项目实战(五十八):数据倾斜解决方案之sample采样倾斜key进行两次join

spark 大型项目实战(五十七):数据倾斜解决方案之sample采样倾斜key进行两次join

87.Spark大型电商项目-用户访问session分析-数据倾斜解决方案之sample采样倾斜key单独进行join

spark 大型项目实战(五十五):数据倾斜解决方案之使用随机key实现双重聚合

spark 大型项目实战(五十三):数据倾斜解决方案之聚合源数据

数据倾斜解决方案之sample采样倾斜key进行两次join

spark 大型项目实战(五十六):数数据倾斜解决方案之将reduce join转换为map join

spark 大型项目实战(五十四):数据倾斜解决方案之提高shuffle操作reduce并行度

spark 大型项目实战(五十二):数据倾斜解决方案之原理以及现象分析

Spark项目实战-数据倾斜解决方案之将reduce join转换为map join

Spark项目实战-数据倾斜解决方案之使用随机key实现双重聚合

83.Spark大型电商项目-用户访问session分析-数据倾斜解决方案之聚合源数据以及过滤导致倾斜的key

086.Spark大型电商项目-用户访问session分析-数据倾斜解决方案之将reduce join转换为map join

Spark项目实战-数据倾斜解决方案之提高shuffle操作reduce并行度

85.Spark大型电商项目-用户访问session分析-数据倾斜解决方案之使用随机key实现双重聚合

Spark（四十）数据倾斜解决方案之将reduce join转换为map join

spark 数据倾斜解决方案

spark完整的数据倾斜解决方案

spark数据倾斜分析与解决方案

Spark数据倾斜及解决方案

Spark数据倾斜解决方案2

Spark 数据倾斜及其解决方案

Spark数据倾斜的解决方案

spark数据倾斜解决方案

Spark-数据倾斜及解决方案

Spark（四十二）数据倾斜解决方案之使用随机数以及扩容表进行join

88.Spark大型电商项目-用户访问session分析-数据倾斜解决方案之使用随机数以及扩容表进行joi

Spark（三十八）数据倾斜解决方案之提高shuffle操作reduce并行度

Spark之数据倾斜完美解决方案

Spark_Spark 中数据倾斜解决方案详解

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)