Spark排序与去重遇见的问题

其他 2018-12-27 15:31:18 阅读次数: 0

答案：

Spark的distinct是通过聚集去重的，可以简单理解为group by去重；

代码1：是先去重之后再排序取limit20是正确的，

代码2：是先排序之后再到各个节点进行去重之后再limit20，此时去重之后是无序的！！！！

有时候测试时候是单个节点计算体现不出来问题2存在的问题，因此单个节点小数据量的话又是一个分区则无法体现问题2，但是一但提交到集群多个节点运行时候问题就会暴露出来！！！！！

猜你喜欢

转载自www.cnblogs.com/leodaxin/p/10185115.html

Spark排序与去重遇见的问题

关于快速排序去重的问题

Spark遇见问题【一】——DataFrame object has no attribute col

大数据排序，取重或去重相关问题案例

sphinx 遇见的问题

遇见问题

sqlalchemy遇见的问题

遇见的问题总结

遇见问题汇总

tomcat：遇见的问题

SSH遇见的问题

oracle遇见的问题

SonarQube遇见的问题

UIScrollView遇见的问题

ceph遇见的问题

去重与排序

排序加去重

B 排序去重

数组去重、排序

排序去重算法

数组排序并去重

字典去重与排序

数组去重+排序

数组的排序及去重

set（去重，排序）

排序，去重，算法

排序，去重

去重与排序（Java）

冒泡排序并去重

努力，去遇见更好的人

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)