hive的高级查询 - 代码天地

hive的高级查询

其他 2018-05-03 11:26:47 阅读次数: 4

1、查询操作

group by、 order by、 join 、 distribute by、sort by、 clusrer by、 union all

【底层是通过mapreduce】

2、常见的聚合操作

2.1 count 计数

count(*) 所有值不全为 NULL 时，加1操作

count(1) 不管有没有值，只要有这条记录，值就加1

count(col) col 列里面的值为 null ，值不会加 1，这个列里面的值不为 null，才加1

【例子】

原始数据

name ，adx,tran_id ，cost，ts

select count(*) from t2;//这行不全为null 的时候才会统计，（null 代表什么都没有，‘’还是有值得，他为空）

select count(1) from t2; //只要这行有记录，就会统计他

select count(adx) from t2;//统计的这列要是为null 则不会统计他

//最后三行的第二列是null

分析：

当数据量很大的时候，

count（*）会判断每行数据是否全为空，这样效率低，不要使用，舍弃

count（1）直接统计，效率高，推荐

count（字段），效率中间

2.2 sum 求和【求某列的值】

sum （可转成数字的值）返回 bigint

select sum(adx) from t2;

2.3 avg 求平均值【求某列的平均值】

avg（可转成数字的值）返回double

select avg(adx) from t2;

2.4 distinct不同值个数【distinct 放在字段名前面，把该字段重复的数据去掉】

count(distinct col)

select distinct name from t2;

//过滤掉重复的数据，显示不重复的，空数据也算

select count(distnct name) from t2;

3、ORDER BY

按照某些字段排序

select col1,other...

from table

where conditio

order by col1,col2 [asc|desc]

注意

order by后面可以有多列进行排序，默认按字典排序

order by为全局排序

order by需要reduce操作，且只有一个reduce ，与配置无关（虽然我们可以通过配置增加reduce的个数，但是没用）。 数据量很大时，慎用。

猜你喜欢

转载自www.cnblogs.com/liubao-xiaoqin/p/8984480.html

hive的高级查询

Hive之——高级查询

hive 高级查询

hive 高级查询1

Hive-高级查询

hive高级查询(一)

hive高级查询(二)

Hive高级查询orderby、groupby

hive学习笔记-高级查询

Hive高级查询(group by、 order by、 join等)

08-Hive高级查询join

07-Hive高级查询order by、group by

Hive（24）：Select高级查询之Union联合查询

Hive（25）：Select高级查询之Subqueries子查询

Hive（26）：Select高级查询之Common Table Expressions（CTE）

Hive（23）：Select高级查询之SORT/ORDER/CLUSTER/DISTRIBUTE BY

Hive高级

大数据开发之Hive篇10-Hive高级查询with语句

Hive的查询

Hive查询

Hive 查询

Hive——Hive查询

高级查询

hive的高级查询详解（group by、 order by、 join 、 distribute by、sort by、 clusrer by、 union all）

Hive的高级类型map、array、struct数据类型创建和查询

Hive高级聚合函数

Hive的高级操作

Hive高级进阶与优化

Hive高级应用

Hive高级操作

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

SVN服务端安装在阿里云

实战 | 相机标定

webpack核心概念

note20——》只要肯低头吃苦，人生就会有救

PAT甲级 1062 Talent and Virtue （25 分）排序

NG Toolset开发笔记--5GNR Resource Grid（26）

如何对待上司

oracle命令

第9章 STL迭代器

logstash使用es映射模板

每日归档

更多

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)