HIVE调优之去重统计 - 代码天地

HIVE调优之去重统计

其他 2019-08-26 15:35:14 阅读次数: 0

SELECT COUNT( DISTINCT id ) FROM TABLE_NAME WHERE ...;

对一个表中符合条件的记录统计不重复的id的总数。由于引入了DISTINCT，因此在Map阶段无法利用combine对输出结果消重，必须将id作为Key输出，在Reduce阶段再对来自于不同Map Task、相同Key的结果进行消重，计入最终统计值。作业运行时的Reduce Task个数为1，对于统计大数据量时，这会导致最终Map的全部输出到单个ReduceTask处理。这唯一的Reduce Task需要Shuffle大量的数据，并且进行排序聚合等处理，这使得它成为整个作业的IO和运算瓶颈

改进：

SELECT COUNT(*) FROM (SELECT DISTINCT id FROM TABLE_NAME WHERE … ) t;

利用Hive对嵌套语句的支持，将原来一个MapReduce作业转换为两个作业，在第一阶段选出全部的非重复id，在第二阶段再对这些已消重的id进行计数。这样在第一阶段我们可以通过增大Reduce的并发数，并发处理Map输出。在第二阶段，由于id已经消重，因此COUNT(*)操作在Map阶段不需要输出原id数据，只输出一个合并后的计数即可

猜你喜欢

转载自www.cnblogs.com/xiangyuguan/p/11412761.html

HIVE调优之去重统计

Hive-调优，表的优化，谓词下推，负载均衡，去重统计

hive去重统计

HIVE调优之MapJoin

HIVE 调优之GROUP BY

hive 在统计汇总时候，如何去重

HIVE调优之JVM重用

hive调优之map task数量

hive使用技巧（三）——巧用group by实现去重统计

【Hive学习之八】Hive 调优【重要】

【hive】去重操作

Hive SQL去重

hive去重方式

hive 调优(转)

hive调优

Hive调优实战

hive 调优转发

Hive参数调优

Hive的调优（二）

Hive的调优（一）

hive的调优

Hive性能调优

Hive on Spark调优

Hive调优详解

Hive调优详解

Hive调优详解

Hive 调优总结

hive调优一

Hive 性能调优

Hive 企业调优

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

SVN服务端安装在阿里云

实战 | 相机标定

webpack核心概念

note20——》只要肯低头吃苦，人生就会有救

PAT甲级 1062 Talent and Virtue （25 分）排序

NG Toolset开发笔记--5GNR Resource Grid（26）

如何对待上司

oracle命令

第9章 STL迭代器

logstash使用es映射模板

每日归档

更多

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)