验证hive load装载数据的overwrite参数 - 代码天地

验证hive load装载数据的overwrite参数

其他 2018-06-05 02:18:15 阅读次数: 3

操作过程

hive> select count(*) from test;

2018-05-25 11:08:40,651 Stage-1 map = 100%, reduce = 100%, Cumulative CPU 61.19 sec
MapReduce Total cumulative CPU time: 1 minutes 1 seconds 190 msec
Ended Job = job_1515037630689_0063
MapReduce Jobs Launched:
Stage-Stage-1: Map: 9 Reduce: 1 Cumulative CPU: 61.19 sec HDFS Read: 820348819 HDFS Write: 107 SUCCESS
Total MapReduce CPU Time Spent: 1 minutes 1 seconds 190 msec
OK
7273391

Time taken: 462.62 seconds, Fetched: 1 row(s)

hive> load data inpath '/data/test/' into table test;

Loading data to table test
OK
Time taken: 7.003 seconds

hive> select count(*) from mianyandns9test;

MapReduce Total cumulative CPU time: 56 seconds 140 msec
Ended Job = job_1515037630689_0064
MapReduce Jobs Launched:
Stage-Stage-1: Map: 9 Reduce: 1 Cumulative CPU: 56.14 sec HDFS Read: 820348824 HDFS Write: 107 SUCCESS
Total MapReduce CPU Time Spent: 56 seconds 140 msec
OK
7273391

Time taken: 416.049 seconds, Fetched: 1 row(s)

结论：再次装载数据，对数据没有影响

hive> load data inpath '/data/test/' overwrite into table test;
Loading data to table test
OK
Time taken: 6.97 seconds
hive> dfs -ls /data/test/;
hive>

加入overwrite参数后，原来的文件消失

hive> select count(*) from test;
Hadoop job information for Stage-1: number of mappers: 0; number of reducers: 1
2018-05-25 14:21:37,032 Stage-1 map = 0%, reduce = 0%
2018-05-25 14:22:13,490 Stage-1 map = 0%, reduce = 100%, Cumulative CPU 1.79 sec
MapReduce Total cumulative CPU time: 1 seconds 790 msec
Ended Job = job_1515037630689_0065
MapReduce Jobs Launched:
Stage-Stage-1: Reduce: 1 Cumulative CPU: 1.79 sec HDFS Read: 3984 HDFS Write: 101 SUCCESS
Total MapReduce CPU Time Spent: 1 seconds 790 msec
OK
0

Time taken: 129.468 seconds, Fetched: 1 row(s)

记录已经清零

小结：当指定了OVERWRITE后，目标文件夹中之前存在的数据将会先被删除，所以在装载数据时需要特别小心。

猜你喜欢

转载自blog.csdn.net/lepton126/article/details/80451492

验证hive load装载数据的overwrite参数

Apache Hive——DML Load装载数据

Hive Load装载数据与HDFS的关系

hive的装载数据方式

HIVE数据导入 - load

Hive 使用Load加载数据

hive 查询数据表头不显示的解决办法(已验证)

Hive数据仓库实践——日期维度数据装载

Python将Hive数据处理后装载进mysql

hive使用load加载数据1.0

hive数据导入load导入命令

Hive（18）：DML之Load加载数据

overwrite在hive内部表及外部表特性

Hive之insert into 和insert overwrite

hive insert overwrite directory 问题排查

hive insert overwrite directory 问题排查

Hive中insert into和insert overwrite的区别

Hive之insert into与insert overwrite区别

Hive之insert和insert overwrite

HIVE参数

【Hive】hive插入数据

How to load data into Hive

hive的load命令

hive load数据后，数据被搬移，问题解决

impala&hive大数据平台数据血缘与数据地图(三)-实时消费血缘记录写入neo4j并验证

hadoop问题总结：hive load写入数据很慢

hive使用load加载数据到表中

hive内部表外部表的创建及load数据

Load HDFS数据到Hive出现Shell错误

【赵强老师】在Hive中使用Load语句加载数据

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)