HIVE中IN的坑 - 代码天地

HIVE中IN的坑

其他 2018-11-07 04:11:37 阅读次数: 0

问题：为什么HIVE中用了 NOT IN，结果集没了？

注：这个是原创，转载请注明，谢谢！
直接进实验室>>

> select * from a;
OK
1 a1
2 a2
3 a3
Time taken: 0.063 seconds, Fetched: 3 row(s)

hive> select * from b;
OK
1 b1
2 b2
NULL b3
Time taken: 0.063 seconds, Fetched: 3 row(s)

# 两表通过id匹配，求 A-B ,用 left join实现
hive> select t1.id,t1.name,t2.name from a t1
> left join b t2 on t1.id = t2.id
> where t2.name is null
OK
3 a3 NULL
Time taken: 34.123 seconds, Fetched: 1 row(s)

# 两表通过id匹配，求 A-B ，用 NOT IN 实现
select * from a where id not in ( select id from b );
OK
Time taken: 34.123 seconds, Fetched: 0 row(s)

这里有诡异了，为什么结果集没了呢？不能啊？？

原因：

在RMDB中， t1.id IN （select t2.id from b t2 ）等价于： t1 join b t2 on t1.id = t2.id and t1.id is not null
在hive中，虽然我们的版本已经高达2.0.0，但是对于IN的处理还是就比较简陋，没有对null值进行屏蔽，导致凡是子查询中有null值，条件就会变成： id in ( null) , 当然， id in ( null) 这个条件是永远不会有结果的。

正确的用法：

# 两表通过id匹配，求 A-B ，用 NOT IN 实现
select * from a where id not in ( select id from b where id is not null );
OK
3 a3 NULL
Time taken: 34.123 seconds, Fetched: 1 row(s)

各位不妨可以做个试验：
--没结果
hive> select * from a where id not in (null);
OK
Time taken: 3.603 seconds

猜你喜欢

转载自www.cnblogs.com/lq-dbdevlp/p/9919989.html

HIVE中IN的坑

hive中的坑(持续更新中)

hive的坑

hive使用中踩的一些坑

利用sqoop将hive数据导入Oracle中（踩的坑）

Hive使用过程中踩过的坑

hive-0.11 的坑

hive 踩坑

hive on spark的坑

hive 试坑

hive爬坑

hive2的坑

hive中in与not in

hive 中 in与not in

hive中多个字段拼接注意躲避空值坑

hive中多个字段拼接注意躲避空值坑，使用nvl函数

hive安装过程的坑

hive安装和遇到的坑

HIVE分区入门踩坑

HIVE遇到的报错和坑

hive安装以及所填的坑

hive on spark 趟坑指南

[hive]hive中创建表

安装配置hive的n个坑

springboot整合hive-jdbc遇到的坑

hive的一个小坑

爬坑：hive的NULL值过滤

hive1.2.1整合hbase遇到的坑

安装hive过程填坑小结

使用impala连接hive踩坑过程

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

laravle中orm简单的增删改查

文本分类特征选取之CHI开方检验

Spark核心编程-WordCount

大数据开发实战系列之电信客服(1)

读书笔记 - 把时间当作朋友 by 李笑来

python 笔记--if else

SpringBoot/Mybatis/Druid, 多数据源MultiDataSource配置思路

排序三个整数

redis集群搭建【2】-Windows中Redis集群搭建

STM32F030驱动TM1650点亮4联数码管

每日归档

更多

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)