hive group by join 优化 - 代码天地

hive group by join 优化

其他 2018-07-02 02:22:13 阅读次数: 0

group by 查询:

1、遇到group by查询时，会按照group by的键进行分发。

2、distinct与group by实现原理类似。

group by优化：

1、map端数据聚合，执行sql前先执行set hive.map.aggr=true

2、针对倾斜的key做两道作业的聚合，set hive.groupby.skewindata=true。

join 查询：

1、将小表写在join的左边，大表写在右边，左边的表会读入内存

2、hive只支持等值join

join优化：

1、map join：适用于一个大表和一个小表做关联的场景，较新的版本hive自动开启mapjoin，可以使用set hive.auto.convert.join=true;

设置小表hive.mapjoin.smalltable.filesize大小;默认是MB

2、skew join：解决数据倾斜：set hive.optimize.skewjoin = true;俗称万能胶

set hive.skewjoin.key = skew_key_threshold(default=100000)

3、也可先进行count统计,找出发现倾斜比较厉害的key.进行where id not in ();过滤掉即可

Hive的Join中，作为Join key的字段比较，null=null是有意义的，且返回值为true。检查以下查询：

select u.uid, count(u.uid) from t_weblog l join t_user u on (l.uid = u.uid) group by u.uid;

查询中，t_weblog表中uid为空的记录将和t_user表中uid为空的记录做连接，即l.uid = u.uid=null成立。

如果需要与标准一致的语义，我们需要改写查询手动过滤null值的情况：

select u.uid, count(u.uid)

from t_weblog l join t_user u

on (l.uid = u.uid and l.uid is not null and u.uid is not null)

group by u.uid;

实践中，这一语义区别也是经常导致数据倾斜的原因之一。

如想更深入了解hive 底层原理可以查看点击打开链接

猜你喜欢

转载自blog.csdn.net/qq_33283716/article/details/80453998

hive group by join 优化

Hive优化学习(join ,group by,in)

Hive Join 优化翻译

hive的join优化

Hive join操作优化

Hive join优化

Hive高级查询(group by、 order by、 join等)

Hive的查询操作(group by ， join，多表连接)

Hive大表JOIN优化

Hive Join 分析和优化

hive in/not in替换以及hive join优化

vertica中group by 和join 语句的优化

Hive优化-大表join大表优化 Hive优化-大表join大表优化

hive大小表join优化性能

hive大小表join性能优化

hive 参数优化之hive.auto.convert.join

【图文详细】Hive 优化策略之 Group By 优化

【图文详细】Hive 优化策略之 Join优化

hive join

Hive 的join

Hive数据倾斜优化（大表join大表）

hive入门学习：join的三种优化方式

hive的高级查询详解（group by、 order by、 join 、 distribute by、sort by、 clusrer by、 union all）

linq join group

join on 和group

group by 优化

Vertica的这些事<十>—— vertica中group by 和join 语句的优化

join优化

HIVE中join、semi join、outer join

【大数据之Hive】二十二、HQL语法优化之Join优化

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)