Hive中实现SELECT TOP N的方法 - 代码天地

Hive中实现SELECT TOP N的方法

其他 2020-03-23 11:01:08 阅读次数: 0

TOP N是实现最大/小N条数据。

鉴于Hive提供了limit关键字，配合排序功能就很容易实现了。

但是Hive中order by只能生成1个reduce，如果表的数据量太大，order by 就会有心无力

例如SQL：select a from t_test order by a limit 10;

控制台会输出：Number of reduce tasks determined at compile time: 1

说明启动的reduce数是编译时决定的，查看该SQL的执行计划，发现只启动1个Job

如果表数据量非常大，而我们只想取Top 10，那么这么做就非常不合理

这样就可以考虑sort by ，就可以解决这个问题了

select a from t_test sort by a limit 10;

控制台会输出：Number of reduce tasks not specified. Estimated from input data size: 1

说明reduce数不是编译时决定的，而是根据输入的文件大小动态决定的。

sort by可以启动多个reduce，每个reduce做局部排序，这对于sort by limit N已经够了。

从执行计划来看，sort by limit N启动了两个Job，第一个Job在每个reduce中做局部排序，分别取出Top N，然后第二个Job做全局排序，取出Top N得出想要的结果。

假设：第一个Job启动了x个reduce，第二个Job对x个reduce排好序的x * N条数据做全局排序，取Top N ，从而得到想要的结果。

这样就大大提升了select 效率。

猜你喜欢

转载自www.cnblogs.com/zbw1112/p/12550751.html

Hive中实现SELECT TOP N的方法

在ORACLE中实现SELECT TOP N的方法

Hive中SELECT TOP N的方法(order by与sort by)

Hive中SELECT TOP N的方法(order by与sort by

MySQL中如何实现select top n

MySQL中如何实现 select top n

Oracle学习笔记：实现select top N的方法

HQL中如何实现select top n这样的功能？

SQL中Group分组获取Top N方法实现

Hive分组取Top N

hive 分组取Top N

Hive分组取Top N数据

TOP N

db中top n和limit m. n的实现

TOP n 在mysql 与 oracle 中的区别

SELECT TOP n, Statement.setMaxRows(), Statement.setFetchSize()

hadoop——hive视频观看热度，Top N案例（youtube）

实现ALV的TOP_OF_PAGE的方法

linux抓取top命令中数据的方法

NLP：自然语言生成中的top-k, top-p, typical采样方法的实现

Mysql group by top N

top n问题

mapreduce Top_N

Top-N分析

TOP-N 分析

Top-N

MySQL分组top N

ITridentSpout、FirstN(取Top N)实现、流合并和join

Spark实现分组取 top N 示例 —— Scala版

Spark实现分组取 top N 示例 —— Java版

今日推荐

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

周排行

[编程题]学英语

[codeforces 1288A] Deadline 约数+模

Python的web开发

Docker在Centos 7上的部署

python编码

解决Ubuntu16.04 fatal error: json/json.h: No such file or directory

mysql并发插入

rest接口如何适应jsonp的方案

linux 终端上网设置

高数——等号两边同时求导、积分的解释

每日归档

更多

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)