Hive学习笔记（5）—— hive分桶

其他 2018-09-23 17:40:11 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/u012292754/article/details/82350529

1 注意

order by 会对输入做全局排序，因此只有一个reducer，会导致当输入规模较大时，需要较长的计算时间。
sort by不是全局排序，其在数据进入reducer前完成排序。因此，如果用sort by进行排序，并且设置mapred.reduce.tasks>1，则sort by只保证每个reducer的输出有序，不保证全局有序。
distribute by(字段)根据指定的字段将数据分到不同的reducer，且分发算法是hash散列。
Cluster by(字段) 除了具有Distribute by的功能外，还会对该字段进行排序。

因此，如果分桶和sort字段是同一个时，此时，cluster by = distribute by + sort by
分桶表的作用：最大的作用是用来提高join操作的效率；

2 新建分桶表

这里写图片描述
数据文件

导入数据发现报错，原来分桶表不支持 load 这种操作，解决方法是新建一个临时表，导入数据，再把数据从临时表导入分桶表；
解决方案参考链接分桶表导入数据
这里写图片描述

hive 分桶开关：hive.enforce.bucketing = true
set mapred.reduce.tasks=4(等于分桶数量)
insert overwrite table t_buck select id,name from t_temp;
这里写图片描述

服务器端输出的信息
这里写图片描述

这里写图片描述

3 `INSERT` 语法

INSERT OVERWRITE TABLE tablename1 [PARTITION (partcol1=val1, partcol2=val2 ...)] select_statement1 FROM from_statement
Multiple inserts:

FROM from_statement 
INSERT OVERWRITE TABLE tablename1 [PARTITION (partcol1=val1, partcol2=val2 ...)] select_statement1 
[INSERT OVERWRITE TABLE tablename2 [PARTITION ...] select_statement2] ...

Dynamic partition inserts:

INSERT OVERWRITE TABLE tablename PARTITION (partcol1[=val1], partcol2[=val2] ...) select_statement FROM from_statement

猜你喜欢

转载自blog.csdn.net/u012292754/article/details/82350529

Hive学习笔记（5）—— hive分桶

hive分桶？

Hive分桶

hive中的分桶

Hive分区与分桶

Hive的分桶详解

hive分区、分桶

hive 分桶表

Hive分桶bucket

Hive分桶分区

Hive的分桶表

Hive分桶表

Hive的分区与分桶

Hive 分桶

hive学习(八)------分桶

hive 学习笔记（二）分桶操作

hive的分区以及分桶 hive的分区和分桶

hive分桶及相关概念

hive入门四--分桶

hive详解（分区&分桶）

hive分桶，排序，连接

Hive分区和分桶

Hive分桶表的总结

hive中的分桶表

Hive 分桶及抽样查询

HIve 创建分桶表

7.Hive分桶

Hive（10）：Hive分桶表

hive学习—分区、分桶和索引

hive学习总结(5)—分区、分桶和索引

今日推荐

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

周排行

[编程题]学英语

[codeforces 1288A] Deadline 约数+模

Python的web开发

Docker在Centos 7上的部署

python编码

解决Ubuntu16.04 fatal error: json/json.h: No such file or directory

mysql并发插入

rest接口如何适应jsonp的方案

linux 终端上网设置

高数——等号两边同时求导、积分的解释

每日归档

更多

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)