Apache Hive—join操作 - 代码天地

Apache Hive—join操作

其他 2020-04-06 10:45:18 阅读次数: 0

目录

Hive join
join实操和数据准备
join实验

inner join：内连接
left join：左关联（左外关联），以左表为准。
right join：右关联（右外关联），以右表为准。
full outer join：全关联（全外关联）
hive中的特别join：semi join
corss join（##慎用）

Hive join

Hive中除了支持和传统数据库中一样的内关联、左关联、右关联、全关联，还支持LEFT SEMI JOIN和CROSS JOIN，但这两种JOIN类型也可以用前面的代替。
Hive支持等值连接（a.id=b.id），不支持非等值（a.id>b.id）的连接，因为非等值连接非常难转化到map/reduce任务。另外，Hive支持多2个以上表之间的join。
写join查询时，需要注意几个关键点：

join时，每次map/reduce任务的逻辑：
reducer会缓存join序列中除了最后一个表的所有表的记录，再通过最后一个表将结果序列化到文件系统。这一实现有助于在reduce端减少内存的使用量。实践中，应该把最大的那个表写在最后（否则会因为缓存浪费大量内存）。
LEFT，RIGHT和FULL OUTER关键字用于处理join中空记录的情况
SELECT a.val,b.val FROM a LEFT OUTER JOIN b ON (a.key=b.key)
对应所有a表中的记录都有一条记录输出。输出的结果应该是a.val，b.val，当a.key=b.key时，而当b.key中找不到等值的a.key记录时也会输出：
a.val, NULL
所以a表中的所有记录都被保留了：
“a RIGHT OUTER JOIN b”会保留所有b表的记录。
join发生在WHERE子句之前
如果你想限制join的输出，应该在WHERE子句中写过滤条件——或是在join子句中写。这里面一个容易混淆的问题是表分区的情况：
SELECT a.val,b.val FROM a
LEFT OUTER JOIN b ON(a.key=b.key)
WHERE a.ds=‘2009-07-07’ AND b.ds=‘2009-07-07’
这会joina表到b表（OUTER JOIN），列出a.val和b.val的记录。

join实操和数据准备

在这里插入图片描述

inner join：内连接，只有a.id=b.id才会显示出来，不相等不会显示出来

先创建A表、B表

通过命令vi a.txt准备数据a.txt

编辑后保存a.txt

通过命令vi b.txt准备数据b.txt

编辑后保存b.txt

导入数据

确认数据是否导入成功
select * from a;
在这里插入图片描述
确认数据是否导入成功
select * from b;

join实验

inner join：内连接

inner join：内连接，只有a.id=b.id才会显示出来，不相等不会显示出来
在这里插入图片描述
开发环境可以开启本地模式，线上环境一定不要开启本地模式。
set hive.exec.mode.local.auto=true;

left join：左关联（左外关联），以左表为准。

左表所有字段显示出来，右表做关联。如果关联上，相等则显示出来；如果关联不上，显示为null。
在这里插入图片描述

right join：右关联（右外关联），以右表为准。

把右表所有字段显示出来，左表做关联。如果关联上，相等则显示出来；如果关联不上，显示为null。
在这里插入图片描述

full outer join：全关联（全外关联）

在这里插入图片描述

hive中的特别join：semi join

在这里插入图片描述

corss join（##慎用）

返回两个表的笛卡尔积结果，不需要指定关联键。

select a.*,b.* from a cross join b;

在这里插入图片描述
执行结果：
左表100条记录，右表100条记录，100*100=10000条记录。

发布了64 篇原创文章 · 获赞 2 · 访问量 2765

私信关注

猜你喜欢

转载自blog.csdn.net/anniewhite/article/details/105322403

Apache Hive—join操作

Apache Hive

Apache Kylin 2.4.0 发布，支持 Kafka 与 Hive 表 join

hive的join操作

Hive中的join操作

Hive join操作

Hive join操作优化

Apache Hive简介与Hive数据组织形式与DDL操作

hive的6种join操作

hive 常用的 join 操作实例

Apache Hive 入门

apache-hive安装

002-Apache Hive

Apache Hive 笔记

CUBE Keyword in Apache Hive

Spring boot with Apache Hive

Apache Hive 下载与安装

Apache Hive 常用的 SerDe

Apache Hive—DML Select

Apache Hive：概念与组成

2.Apache Hive

idea操作hive报错：org.apache.thrift.transport.TTransportException

apache kylin 数据导入hive

下载apache-hive-0.13.0

Apache Hive—DML导出数据

Apache Hive 的 SQL 执行架构

08_Hive中的各种Join操作

Hive中join操作及用法---详解

Hive的查询操作(group by ， join，多表连接)

Hive 中各种Join 操作及实例

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

让自己的头脑极度开放

CentOS 6.5(x64) 和Redhat6.5操作系误删libc

高可用注册中心

【日记】12.28/【题解】AtCoder AGC041

XML（5）_XML 约束_DTD

Java集合Map（四）

树梅派安装桌面环境教程

pipenv 的使用和安装

小程序白屏问题和内存研究

C语言简单选择排序

每日归档

更多

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)