【Hive】Hive的三种Join方式 - 代码天地

【Hive】Hive的三种Join方式

其他 2020-02-11 10:55:02 阅读次数: 0

Hive中的join可分为三种，分别是Map-join、Reduce-join和SMB Join，本文简单介绍这三种join的原理和机制。

1.Map-join

MapJoin的主要意思就是，当链接的两个表是一个比较小的表和一个特别大的表的时候，我们把比较小的table直接放到内存中去，然后再对比较大的表格进行map操作。join就发生在map操作的时候，每当扫描一个大的table中的数据，就要去去查看小表的数据，哪条与之相符，继而进行连接。这里的join并不会涉及reduce操作。map端join的优势就是在于没有shuffle，能加快查询速度。

当我们将小表放入内存中时，这个小表具体有多小，是由hive.mapjoin.smalltable.filesize参数决定的。该参数的默认值为10M。Hive0.7之前，需要使用hint提示 /*+ mapjoin(table) */才会执行MapJoin,否则执行Common Join，但在0.7版本之后，默认自动会转换Map Join，由参数hive.auto.convert.join来控制，默认为true.借鉴网上的一张图来表示Map-Join

2.Reduce-join

Reduce-Join又叫做Shuffle-Join和Common-Join。如果不指定MapJoin或者不符合MapJoin的条件，那么Hive解析器会将Join操作转换成Common Join,即：在Reduce阶段完成join.
整个过程包含Map、Shuffle、Reduce阶段。

Map阶段

读取源表的数据，Map输出时候以Join on条件中的列为key，如果Join有多个关联键，则以这些关联键的组合作为key; Map输出的value为join之后所关心的(select或者where中需要用到的)列；同时在value中还会包含表的Tag信息，用于标明此value对应哪个表；按照key进行排序

Shuffle阶段

根据key的值进行hash,并将key/value按照hash值推送至不同的reduce中，这样确保两个表中相同的key位于同一个reduce中

Reduce阶段
根据key的值完成join操作，期间通过Tag来识别不同表中的数据。

3.SMB Join（sort merge bucket）

SMB 存在的目的主要是为了解决大表与大表间的 Join 问题，分桶其实就是把大表化成了“小表”，然后 Map-Side Join 解决之，这是典型的分而治之的思想。

set hive.enforce.bucketing=true;

set hive.enforce.sorting=true;

表优化数据目标：相同数据尽量聚集在一起

站内首发文章

beautiful_huang

发布了94 篇原创文章 · 获赞 110 · 访问量 5035

私信关注

猜你喜欢

转载自blog.csdn.net/beautiful_huang/article/details/104158387

【Hive】Hive的三种Join方式

Hive的三种Join方式

Hive中join的三种方式

Hive的三种join

hive入门学习：join的三种优化方式

Hive中三种Join连接方式

Hive专题三--Hive的三种使用方式

Hive metastore三种配置方式

Hive 三种配置方式

hive 三种启动方式及用途

Hive的三种启动方式及用途

Hive metastore三种存储方式

hive脚本的三种执行方式

hive 三种搭建方式

hive的三种连接方式

hive的三种交互方式

Hive学习(一)Hive的三种搭建方式

Hive的meta 数据支持以下三种存储方式

hive中文件三种压缩方式

Hive中的三种不同的数据导出方式介绍

Hive之——metastore三种配置方式（转）

hive 中创建表的三种方式

Hive三种不同的数据导出的方式

Hive中metastore的三种方式区别和搭建

简述Hive的三种启动方式及内置服务

Hive启动的三种方式 —悟空智慧教育

SQL（HIVE -HUE）剔除的三种方式

Hive：元数据的三种部署方式

HIVE中三种join的连接条件遇到过的坑

Spark的join实现的3种方式(与Hive中的join对比)

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

周排行

Python环境安装与基础语法（1）——计算机基础知识

IMU预积分

ADAS中的LDW、FCW、BSD、LCA、ACC、AEB、APA、DMS代表的含义

B站笔试两道题

skyeye arm 硬件虚拟机环境的搭建

Web前端静态页面示例

数组-合并排序数组 II-简单

springcloud之版本问题启动报错

面向对象-------------匿名对象(六)

输入URL到页面呈现中间发生了什么？

每日归档

更多

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)