简单Hive分桶表使用 - 代码天地

简单Hive分桶表使用

其他 2020-02-18 09:32:45 阅读次数: 0

如何使用分桶表

创建带桶的table：
create table teacher(name string) clustered by (name) into 3 buckets row format delimited fields terminated by ’ ';
开启分桶机制：
set hive.enforce.bucketing=true
往表中插入数据：
insert overwrite table teacher select * from tmp ;//需要提前准备好temp,从temp查询数据写入到teacher

注：teacher是一个分桶表，对于分桶表，不允许以外部文件方式导入数据，只能从另外一张表数据导入。分通表只能是内部表。

temp文件数据样例：
zhang web
wang java
zhao java
qin web
liu web
zheng ios
li linux
chen ios
yang ios
duan linux
ma linux
xu java
wen web
分桶表的作用及原理
分桶的原理是根据指定的列的计算hash值模余分桶数量后将数据分开存放。方便数据抽样。
select * from teacher tablesample(bucket 1 out of 3 on name);
注：分桶语法—TABLESAMPLE(BUCKET x OUT OF y)
y必须是table总bucket数的倍数或者因子。hive根据y的大小，决定抽样的比例。

例如：table总共分了3份，当y=3时，抽取(3/3=)1个bucket的数据，当y=6时，抽取(3/6=)1/2个
bucket的数据。
x表示从哪个bucket开始抽取。

例如：table总bucket数为3，tablesample(bucket 3 out of 3)，表示总共抽取（3/3=）1个bucket的
数据，抽取第3个bucket的数据。

再例如：table总bucket数为32，tablesample(bucket 3 out of 16)，表示总共抽取（32/16=）2个
bucket的数据，分别为第3个bucket和第（3+16=）19个bucket的数据

查询第一个桶里数据，并返回一半的数据：
select * from bucketed_user tablesample(bucket 1 out of 6 on id);

大哥惯过谁

发布了63 篇原创文章 · 获赞 3 · 访问量 1426

私信关注

猜你喜欢

转载自blog.csdn.net/weixin_41772761/article/details/103629560

简单Hive分桶表使用

hive 分桶表

Hive的分桶表

Hive分桶表

Hive分桶表的总结

hive中的分桶表

HIve 创建分桶表

Hive（10）：Hive分桶表

【Hive大数据】Hive分区表与分桶表使用详解

Hive常用函数和分桶表

Spark 读写Hive分桶表

Hive表的分桶和分区

hive排序，分区表，分桶表，hive函数

HIVE分区以及分桶的简单概念

【大数据】Hive系列之- Hive-分桶表

Hive的分桶表和抽样查询（附带案例，分桶和分表的区别）

Hive中的分桶表是什么？请解释其作用和使用场景。

Hive的分区表和分桶表的区别

Hive命令实践（内部表、外部表、分区、分桶等）

HIVE 分区表和分桶表

HIve中的分区表和分桶表

Hive SQL之分区表与分桶表

Hive 教程(四)-分区表与分桶表

HIVE内部表，外部表，分区，分桶干货笔记

hive分区表和分桶表

Hive的分桶表和分区表

Hive Hive中的数据分桶以及使用场景 hive的分区和分桶

Hive中分区表与分桶表 Hive SQL之分区表与分桶表

hive桶表

Hive之分桶表

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)