hive中groupby和distinct区别以及性能比较 - 代码天地

hive中groupby和distinct区别以及性能比较

其他 2019-06-19 14:33:38 阅读次数: 0

Hive去重统计

相信使用Hive的人平时会经常用到去重统计之类的吧，但是好像平时很少关注这个去重的性能问题，但是当一个表的数据量非常大的时候，会发现一个简单的count(distinct order_no)这种语句跑的特别慢，和直接运行count(order_no)的时间差了很多，于是研究了一下。
先说结论:能使用group by代替distinc就不要使用distinct，例子：

实际论证

order_snap为订单的快照表总记录条数763191489，即将近8亿条记录,总大小:108.877GB,存储的是公司所有的订单信息，表的字段大概有20个,其中订单号是没有重复的,所以在统计总共有多少订单号的时候去重不去重结果都一样，我们来看看:
统计所有的订单有多少条条数，一个count函数就可以搞定的sql性能如何。

猜你喜欢

转载自www.cnblogs.com/wqbin/p/11050970.html

hive中groupby和distinct区别以及性能比较

hive group by distinct区别以及性能比较

Hive的distinct和group by性能比较

MySQL中distinct和group by性能比较[转]

MySQL 中的 distinct 和 group by 的性能比较

hive的group by与distinct的区别及性能测试比较

java中for、foreach、stream区别和性能比较

Union 和 Union all + distinct 性能比较

Hive性能比较之in的使用和join的使用

大数据Flink（五十二）：Flink中的批和流以及性能比较

exists 和 in的性能比较

【转】Hive over HBase和Hive over HDFS性能比较分析

Hive over HBase和Hive over HDFS性能比较分析

shell中let和expr用法及性能比较

Python中in和has_key的性能比较

java中减法和乘法的性能比较

优化groupby 和distinct

Java NIO与IO的区别和比较，NIO与IO线程池性能比较

MySql中IN、OR、BETWEEN性能比较

java中switch 与 else if 性能比较

codis和jedis性能比较

sparksql和mysql性能比较

JAVA和CPP的性能比较

ibatis和hibernate的性能比较

String和stringbuild性能比较

malloc和memset性能比较

CriticalSection 和Mutex 性能比较

Cassandra HBase和MongoDb性能比较

RDL和RDLC性能比较

exp和expdp 导出性能比较

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

让自己的头脑极度开放

CentOS 6.5(x64) 和Redhat6.5操作系误删libc

高可用注册中心

【日记】12.28/【题解】AtCoder AGC041

XML（5）_XML 约束_DTD

Java集合Map（四）

树梅派安装桌面环境教程

pipenv 的使用和安装

小程序白屏问题和内存研究

C语言简单选择排序

每日归档

更多

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)