将CSV，TXT文件数据导入到kudu(hive) - 代码天地

将CSV，TXT文件数据导入到kudu(hive)

编程语言 2019-04-01 13:30:51 阅读次数: 0

记一次将三十万条数据的CSV文件导入到生产环境的kudu数据库中
因为是生产环境，自己也是小心翼翼，进行实践操作。
思路还是简单的
0，开始工作前，先将文件复制出来，保存为.txt文件，且用制表符作为分隔。
在这里插入图片描述
1，先将文件上传到集群环境中，放在某个目录下。这里我放在/home
2，将文件数据导入到hive中，建hive表

create table kzw_mk_test(
   device_id    string,
   user_id_mk  string
)
row format delimited
fields terminated by '\t'
STORED AS TEXTFILE
;

3，将本地文件导入到hive中，命令如下：

load data local inpath '/home/urserid_mk.txt' into table kzw_mk_test;

4，用hue建好kudu表：

CREATE TABLE IF NOT EXISTS kzw_test_device_user_mk(
device_id STRING PRIMARY KEY , 
user_id_mk BIGINT）
 STORED AS KUDU

此处遇到一个小问题，用device_id作为主键导入数据后发现有数据丢失情况，说明有主键重复情况，所以修改建表语句，用两个字段联合作为kudu组合主键
修改后建表语句：


CREATE TABLE IF NOT EXISTS kzw_test_device_user_mk(
device_id STRING, 
user_id_mk BIGINT,
PRIMARY KEY (device_id, user_id_mk))
 STORED AS KUDU

5，最后将hive表导入到kudu表中

INSERT INTO kzw_test_device_user_mk SELECT device_id ,cast(user_id_mk as bigint) FROM kzw_mk_test ;

其中 cast(user_id_mk as bigint) 是因为在hive中该字段是String类型，而hive中是bigint类型，所以要进行类型转换。

一系列步骤下来导入成功，三十多万条数据一条不落。此方法只是本人自己所实践，方法比较笨，如有高人路过望不吝赐教。

猜你喜欢

转载自blog.csdn.net/kzw11/article/details/88946024

将CSV，TXT文件数据导入到kudu(hive)

将CSV文件导入到hive数据库

ELK生态：Logstash增量读取csv文件数据，导入到Elasticsearch

ELK生态：Logstash增量读取txt文件数据，导入到Elasticsearch

把本地的文件数据导入到Hive分区表--系列①Java代码

将excel文件数据导入到数据库中（转）

Java使用POI将Excel文件数据导入到Mongo数据库

使用kafka connect将文本文件数据导入到kafka

将CSV文件中的数据导入到SQL Server 数据库中

将csv导入到mysql数据表中

一步一步将.csv文件导入到SQLserver数据库

通过py文件将文件中的数据导入到hive遇见的问题

【数据库】将CSV和TXT文件导入hive表中

dat txt csv 导入到orcale数据导出为txt

定时将数据导入到hive中

利用udf函数将hive数据导入到mysql

sqoop将mysql的数据导入到hive表中

用sqoop将mysql的数据导入到hive表

使用Mongo dump 将数据导入到hive

使用spark将hive中的数据导入到mongodb

使用sqoop将mysql数据导入到hive中

.csv 文件导入到sql

hive ,从hdfs把数据文件导入到表

hive把本地的数据文件导入到表

向MySQL数据库表内导入txt和csv文件数据

Hive将txt、csv等文本文件导入hive表

txt 文件导入到mysql 到 mysql 中表及表中的数据使用 sqoop 导入到 hdfs中

Python | Python+xlrd+xlwt实现excel文件数据导入到数据库以及从数据库将数据导出成excel（代码优雅易懂）

Java | SpringBoot+Mybatis+poi+Thymeleaf实现excel文件数据导入到数据库以及从数据库将数据导出成excel（详细）

使用FDBatchMove导入TXT，CSV文件到数据库

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)