hive-- 请不要用动态分区（如果分区可以确定） - 代码天地

hive-- 请不要用动态分区（如果分区可以确定）

其他 2021-11-29 10:45:55 阅读次数: 0

如果分区是可以确定的话，千万不要用动态分区，动态分区的值是在reduce运行阶段确定的.也就是会把所有的记录distribute by。可想而知表记录非常大的话，只有一个reduce 去处理，那简直是疯狂的。如果这个值唯一或者事先已经知道，比如按天分区(i_date=20140819) 那就用静态分区吧。静态分区在编译阶段已经确定，不需要reduce处理。例如以下两个insert 表分区：
1.插入动态分区：
set hive.exec.dynamic.partition.mode=strict;
insert overwrite table a_test partition (i_date)
select id, page, extract, label_count,weight,'20140817'
from b.test_b where request_date_i = '20140817';
2. 插入静态分区：
insert overwrite table a_test partition (i_date='20140817')
select id, page, extract, label_count,weight
from b.test_b where request_date_i = '20140817';
当然选静态分区insert：如果schedule的话，可以动态把i_date传进去：比如：
insert overwrite table a_test partition (i_date='${hiveconf:i_date}')
select id, page, extract, label_count,weight
from b.test_b where request_date_i = '20140817';

关于为什么这样，请理解hive运行原理，参考：
http://tech.meituan.com/hive-sql-to-mapreduce.html
http://www.slideshare.net/coderplay/hive-16171301#
https://cwiki.apache.org/confluence/display/Hive/DynamicPartitions
————————————————

猜你喜欢

转载自blog.csdn.net/xiao_yi_xiao/article/details/121371695

hive-- 请不要用动态分区（如果分区可以确定）

[转]hadoop生态--Hive--内部表、外部表、分区表

Hive--数据导入

Hive--简介

hive--白话开窗函数

hive--数据仓库

Hive--数据查询

Hive--数据类型

Hive--数据模型

Hive--关联查询

hive--从底层梳理优化

Hive--清除/删除Hive表数据

数据仓库Hive--总结（1）

Hive--数据管理方式

hive动态分区与静态分区

Hive分区（静态分区+动态分区）

数仓--Hive--总结之Hive架构原理

Hive动态分区

Hive动态分区配置

Hive之动态分区

hive-动态分区

hadoop hive 动态分区

Hive 动态分区案例

Hive - 动态分区操作

Hive动态分区报错

Hive之——Hive分区（静态分区+动态分区）

hive--自定义函数--json解析函数

hive--支持in (select from ....)子查询的用法

hive--新增字段，数据重跑坑

hive中的静态分区与动态分区

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

NEFU 117 素数个数的位数

Closest Common Ancestors (Lca,tarjan)

ELK部署

【转载】Hive笔记整理（三）

SQL语句（一）基本表的定义

关于Java web开发中的MySQL的事务语句

MFC创建自定义窗体

如何用一句话激怒程序员？

《逆袭大学》文摘——9.4 基础和应用的平衡中找到大学的节奏

【spring源码分析】@Value注解原理

每日归档

更多

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)