Hive中使用MAP JOIN - 代码天地

Hive中使用MAP JOIN

其他 2019-04-18 20:04:20 阅读次数: 0

 
   
 
                   
  1 概述 
  若所有表中只有一张小表，那可在最大的表通过Mapper的时候将小表完全放到内存中，Hive可以在map端执行连接过程，称为map-side join，这是因为Hive可以和内存的小表逐一匹配，从而省略掉常规连接所需的reduce过程。即使对于很小的数据集，这个优化也明显地要快于常规的连接操作。其不仅减少了reduce过程，而且有时还可以同时减少Map过程的执行步骤。

使用MAPJOIN可解决以下实际问题：
A 有一个极小的表<1000行（a是小表）
B 需要做不等值join操作（a.x<b.y或者a.x like b.y等）。普通join语法不支持不等于操作，Hive语法解析会直接抛出错误。 
  
 
  select /*+ MAPJOIN(a)*/a.name, b.stu_idfrom student_table_small ajoin student_table_big bwhere b.age>=a.age 
  2 相关参数 
  2.1 小表自动选择Mapjoin
set hive.auto.convert.join=true;
默认值：false。该参数为true时，Hive自动对左边的表统计量，若是小表就加入内存，即对小表使用Map join

2.2 小表阀值
set hive.mapjoin.smalltable.filesize=25000000;
默认值：25M

2.3 map join做group by操作时，可使用多大的内存来存储数据。若数据太大则不会保存在内存里
set hive.mapjoin.followby.gby.localtask.max.memory.usage;  
默认值：0.55

2.4 本地任务可以使用内存的百分比
set hive.mapjoin.localtask.max.memory.usage;  
默认值：0.90

参考地址：http://blog.csdn.net/kwu_ganymede/article/details/51365002            
 

猜你喜欢

转载自blog.csdn.net/qq_44884300/article/details/89354437

Hive中使用MAP JOIN

hive的map join原理

hive的map join

理解Hive Map join

Hive Map Side Join解析

Hive JOIN使用详解

hive的join使用

hive join使用总结

hive join

Hive 的join

HIVE中join、semi join、outer join

join、Inner join、left join、right join、full join的使用

Reduce Join和Map Join

inner join on, left join on, right join on的使用

join的使用

Hive中JOIN的使用入门

【hive】中各类join的使用

hive--Sort Merge Bucket Map Join

rails中使用join()方法

Linq中使用Left Join

[hive]left join 与left outer join

Hive中join, outer join, semi join区别

HIVE中join、semi join、outer join举例详解

Hive的JOIN用法

【hiveql】hive 各种join

Hive Join 优化翻译

hive的join操作

HIve join详解

hive group by join 优化

hive--join（1）

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

SVN服务端安装在阿里云

实战 | 相机标定

webpack核心概念

note20——》只要肯低头吃苦，人生就会有救

PAT甲级 1062 Talent and Virtue （25 分）排序

NG Toolset开发笔记--5GNR Resource Grid（26）

如何对待上司

oracle命令

第9章 STL迭代器

logstash使用es映射模板

每日归档

更多

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)