HIve map jion的原理、操作和使用场景 - 代码天地

HIve map jion的原理、操作和使用场景

其他 2019-01-13 13:55:19 阅读次数: 0

一：hive mapjion的使用场景：

1.关联操作中有一张表非常小（有严重的数据倾斜）
2.不等值的链接操作
Join有多个关联键，则以这些关联键的组合作为key；Map输出的value为join之后所关心的(select或者where中需要用到的)列

二：原理

Hive Map Join
MapJoin通常用于一个很小的表和一个大表进行join的场景，具体小表有多小，由参数hive.mapjoin.smalltable.filesize来决定，默认值为25M。满足条件的话Hive在执行时候会自动转化为MapJoin，或使用hint提示 /*+ mapjoin(table) */执行MapJoin。
在这里插入图片描述
解释：
如上图中的流程，
1.Task A在客户端本地执行，负责扫描小表b的数据，将其转换成一个HashTable的数据结构，并写入本地的文件中，
2.将该文件加载到DistributeCache中。
3.Task B任务是一个没有Reduce的MapReduce，启动MapTasks扫描大表a，在Map阶段，根据a的每一条记录去和DistributeCache中b表对应的HashTable关联，并直接输出结果，
因为没有Reduce，所以有多少个Map Task，就有多少个结果文件。
注意：Map JOIN不适合FULL/RIGHT OUTER JOIN。

三：操作

1.配置一下参数，Hive会自动根据SQL选择common join或者是Map Join。

hive (hive)> set hive.auto.convert.join=true;
hive (hive)> set hive.mapjoin.smalltable.filesize=25000000;(默认值就是25MB)

2.我们还可以手动指定使用Map join：

hive (hive)> select /*+mapjoin(post)*/ user.id,user.name,post.pid,post.title from  user
           > join post
           > on user.id =post.uid;

四：优势

1.不消耗集群的reduce资源。

2.减少了reduce操作，加快了程序执行。

3.降低网络负载。

猜你喜欢

转载自blog.csdn.net/qq_43688472/article/details/86063565

HIve map jion的原理、操作和使用场景

hive的map join原理

hive array、map、struct使用

Hive中使用MAP JOIN

hive复杂格式array,map,struct使用

Hive集合类型Array,Map,Struct的使用

hive map端聚合

hive的map结果压缩

HIVE MAP排序 GenericUDF

Hive map阶段缓慢

hive的map join

hive 读取 map的value

hive：函数：map / json

理解Hive Map join

Map Reduce数据清洗及Hive数据库操作

Hive中的TRANSFORM：使用脚本完成Map/Reduce

hive 特殊数据类型【array、map、struct】使用

0436-如何在Hive中使用Map类型

hive嵌套if使用场景

Hive基础07、Hive引入Map

Map接口的使用场景

Hive Map Side Join解析

hive函数str_to_map

Hive实现返回MAP的UDF

Hive UDAF collect_map

Hive应用场景及架构原理

Hive 常见数据倾斜场景及解决方案(Map\Join\Reduce端)

Spark SQL和Hive使用场景？

Hive架构优点及使用场景

Hive 基于MR引擎 map和reduce数的参数控制原理与调优经验

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

BPM为企业带来的实际利益

好程序员web前端分享css常用属性缩写

Java文件下载（excel）

css样式的动态添加及显示和隐藏等零碎用法

axios全局配置以及拦截器

使用Logstash来实时同步MySQL和log日志数据到ES

C++获取当前时间（年月日、时分秒、毫秒）

Odoo产品分析 (四) -- 工具板块(11) -- 网站即时聊天(1)

Java环境配置正确，但是java、javac、java -version均返回“不是内部或外部命令，也不是可运行的程序或批处理文件”？

01 官网下载各种CentOS教程（超详细版）

每日归档

更多

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)