学习笔记（3):大数据之Hive-连接查询

其他 2020-08-09 11:22:27 阅读次数: 0

立即学习:https://edu.csdn.net/course/play/8005/164135?utm_source=blogtoedu

建表

create table customers(id int,name string,age int);
insert into customers(id,name,age) values(1,'gxf',23);
create table orders(id int,cid int,orderno int,price float);
insert into orders(id,cid,orderno,price) values(1,1,1,1.2);
insert into orders(id,cid,orderno,price) values(1,1,2,3.2);

左半连接

左半连接left semi-join, select 和 where 子句不能引用到右边表字段。

左表的记录在右表中一旦找到对应的记录，右侧表立即停止，效率比内连接效率高

hive不支持右半连接操作

select c.id,c.name from customers c left semi join orders o on c.id = o.cid

笛卡尔链接m*n

select c.id,c.name from customers c join orders o;

map端连接

map端连接，通过mapper的手段，将一张小表完全载入内存中。

Hive中的 Map Join 即map side join

工作原理是在Map端把小表加载到内存中，然后读取大表，和内存中的小表完成连接操作。MapJoin使用了分布式缓存技术。

Map Join的优点：

不消耗集群的reduce资源。
减少了reduce操作，加快了程序执行。
降低网络负载。

Map Join的缺点：

占用内存(所以加载到内存中的表不能过大，因为每个计算节点都会加载一次)。
生成较多的小文件。

select /*+mapjoin(c)*/ c.id,c.name,o.orderno from customers c join orders o;
select /*+mapjoin(o)*/ c.id,c.name,o.orderno from customers c join orders o;

set hive.mapjoin.smalltable.filesize=25000000; --设置小表阀值

注意： set 命令只对当前会话有用，要持久化需要修改 hive-site.xml

union all 联合操作

select id, name from customers 
union all 
select id, orderno from orders;

猜你喜欢

转载自blog.csdn.net/itnerd/article/details/107128732

学习笔记（3):大数据之Hive-连接查询

学习笔记（2):大数据之Hive-基本查询

【大数据】Hive系列之- Hive-分桶表

【大数据】Hive系列之- Hive-分区表(静态分区和动态分区)

Hive-查询

Hive-高级查询

hive-笔记

【大数据】Hive系列之- Hive-业务最常用的行转列CONCAT/列转行EXPLODE用法详解

Hive-导入数据

Hive-元数据查询表数据量

Spark大数据学习笔记_第3篇_Hive的安装

大数据学习笔记40：Hive - 内置函数（3）

大数据学习之hive

大数据学习笔记之Hive（一）：准备工作

大数据软件安装之Hive（查询）

大数据--hive查询

大数据技术学习笔记之hive框架基础2-hive中常用DML和UDF和连接接口使用

大数据技术学习笔记之hive框架基础3-sqoop工具的使用及具体业务分析

大数据技术之Hive（3）

大数据学习笔记之Hive（三）：Hive介绍以及简单操作

大数据学习笔记之Hive（二）：Hive介绍以及简单操作

学习笔记（1):大数据之Hive-Hive安装配置和简单命令

Hive-学习日志-20181226

HIVE-元数据存储

Hive-数据类型

Hive-数据仓库

大数据学习笔记32：Hive入门

大数据学习笔记44：Hive架构

大数据学习之Hive的安装

【大数据学习】之Hive初认识

今日推荐

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

周排行

Family Tree 题解

BZOJ 1093 最大半连通子图 SCC + DP

幂等处理

Spring----学习（2）----XML 配置Bean 自动装配

SQL Server 远程更新目标表数据

HIbernate3.6 环境搭建

特殊符号正则表达式

【Linux】第一章进程的理解

843. n-皇后问题（dfs+输出各种情况）

空间数据库2

每日归档

更多

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)