Hive 分桶及抽样查询 - 代码天地

Hive 分桶及抽样查询

其他 2019-05-04 03:21:50 阅读次数: 0

一.分桶表数据存储
分区针对的是数据的 存储路径；分桶针对的是 数据文件。
分区提供一个隔离数据和优化查询的便利方式，不过并非所有的数据集都能形成合适的分区，特别是之前提到过的要确定合适的划分大小这个顾虑。
分桶是将数据集分解成更容易管理的若干个部分。

先创建分桶表，通过直接导入数据文件的方式
（1）数据准备

（2）创建分桶表

（3）加载数据

数据如下：

但像这样直接把文件 load 到指定目录是不能给你分成四个文件的，想想都不可能，这是加载方式的问题。
通过 select * 一张表来插入数据
（1）我这里又创建了一张表用来那什么

在这里插入图片描述
然后把 stu_buck_extra 中的数据 select * 之后插入到 stu_buck 中，前提是要加入以下参数：

然后就成功了哈：

当然你也可以直接设置全局设置，下次就直接插就完事了。
tip:你 select * 这个文件，它是按照上图文件顺序依次读的。

二.分桶表抽样查询
分桶表自然不能像分区表一样通过 where 语句来查询，因为分桶表分的是数据文件，分区表分的是文件目录。
语句如下：

select  * from tablename tablesample(bucket x out of y);

其中，x 代表你从哪个桶开始取数据，hive 根据 y 的大小来决定抽样的比例。
在这里插入图片描述

这里思考为什么 x 的值必须小于等于 y?

猜你喜欢

转载自blog.csdn.net/qq_39327985/article/details/89002533

Hive 分桶及抽样查询

Hive分桶和抽样查询

Hive的排序以及分桶抽样查询

Hive_分桶及抽样查询

Hive_分桶抽样查询

hive分桶查询详解以及分桶抽样

Hive之分桶及抽样查询

Hive分桶查询详解以及分桶抽样操作Zeppelin练习hive

Hive的分桶表和抽样查询（附带案例，分桶和分表的区别）

大数据（二十二）：hive分桶及抽样查询、自定义函数、压缩与存储

hive 中分桶抽样查询的原理刨析

分桶抽样查询的解释

hive分桶？

Hive分桶

hive中的分桶

Hive的分桶详解

Hive分区与分桶

hive分区、分桶

hive 分桶表

Hive分桶bucket

Hive分桶分区

Hive的分桶表

Hive分桶表

Hive的分区与分桶

Hive 分桶

大数据--hive分桶查询&&压缩方式

Flink 使用 BucketingSink 分桶写入HSDFS 方便Hive查询

Hive学习笔记（5）—— hive分桶

Hive（10）：Hive分桶表

使用Hive如何进行抽样查询？

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)