Hive之分区以及bucket分桶认识理解 - 代码天地

Hive之分区以及bucket分桶认识理解

其他 2018-06-19 12:39:46 阅读次数: 2

1. 桶的概念：

对于每一个表（table）或者分区， Hive可以进一步组织成桶(没有分区能分桶吗？)，
也就是说桶是更为细粒度的数据范围划分。Hive也是针对某一列进行桶的组织。Hive采用
对列值哈希，然后除以桶的个数求余的方式决定该条记录存放在哪个桶当中。
把表（或者分区）组织成桶（Bucket）有两个理由：
(1)、获得更高的查询处理效率。桶为表加上了额外的结构，Hive 在处理有些查询时能利用
这个结构。具体而言，连接两个在（包含连接列的）相同列上划分了桶的表，可以使用
Map 端连接（Map-side join）高效的实现。比如JOIN操作。对于JOIN操作两个表有一个
相同的列，如果对这两个表都进行了桶操作。那么将保存相同列值的桶进行JOIN操作就可
以，可以大大较少JOIN的数据量。
(2)、使取样（sampling）更高效。在处理大规模数据集时，在开发和修改查询的阶段，
如果能在数据集的一小部分数据上试运行查询，会带来很多方便。

(3)、强制多个 reduce 进行输出：
插入数据前需设置，不设置将会只有一个文件：
set hive.enforce.bucketing = true
要向分桶表中填充数据，需要将 hive.enforce.bucketing 属性设置为 true。
这样，Hive 就知道用表定义中声明的数量来创建桶。然后使用 INSERT 命令即可。
需要注意的是： clustered by和sorted by不会影响数据的导入，这意味着，用户必须自己负责数据如何如何导入，包括数据的分桶和排序。
'set hive.enforce.bucketing = true' 可以自动控制上一轮reduce的数量从而适配bucket的个数，
当然，用户也可以自主设置mapred.reduce.tasks去适配bucket个数，推荐使用'set hive.enforce.bucketing = true'

猜你喜欢

转载自www.cnblogs.com/bloglintao/p/9197976.html

Hive之分区以及bucket分桶认识理解

Hive分桶bucket

hive的分区以及分桶 hive的分区和分桶

Hive SQL之分区表与分桶表

HIVE分区以及分桶的简单概念

Hive分区与分桶

hive分区、分桶

Hive分桶分区

Hive的分区与分桶

Hive中分区表与分桶表 Hive SQL之分区表与分桶表

Hive分桶之BUCKET详解

Hive Hive中的数据分桶以及使用场景 hive的分区和分桶

[转] Hive 基础（1）：分区、桶、Sort Merge Bucket Join

Hive 基础之：分区、桶、Sort Merge Bucket Join

hive详解（分区&分桶）

Hive分区和分桶

Doris的分区Partition和分桶Bucket介绍

六七, Hive 数据查询实操, 以及Hive的分区和分桶

Hive分区、分桶和索引

hive学习—分区、分桶和索引

Hive分区、分桶操作及其区别

hive分区、分桶、sql语句

Hive中索引，分区，分桶的对比

hive -- 分区，分桶(创建，修改，删除)

Hive的分桶管理和分区

Hive动态分区和分桶（八）

Hive 分区和分桶的区别

Hive动态分区和分桶

Hive表的分桶和分区

Hive---分区和分桶

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)