大数据之路week07--day07 （Sqoop 从mysql增量导入到HDFS） - 代码天地

大数据之路week07--day07 （Sqoop 从mysql增量导入到HDFS）

其他 2019-12-22 14:34:14 阅读次数: 0

我们之前导入的都是全量导入，一次性全部导入，但是实际开发并不是这样，例如web端进行用户注册，mysql就增加了一条数据，但是HDFS中的数据并没有进行更新，但是又再全部导入一次又完全没有必要。

所以，sqoop提供了增量导入的方法。

1、数据准备：

2、将其先用全量导入到HDFS中去

3、先在mysql中添加一条数据，在使用命令进行追加

 #指定字段的取值范围，增量到数据(指的是Mysql增加了一条或多条数据，追加到HDFS中去,
 如果想追加到hive本来的数据中去就把路径换成hve的路径)
 # 适用于表不断的有新数据插入
 
sqoop import \
--connect jdbc:mysql://master:3306/student \
--username root \
--password 123456 \
--table student_zeng \
--target-dir /user/hive/warehouse/sqlhivetest.db/student_zeng/ \
--split-by id \
-m 1 \
--fields-terminated-by '\t' \
--incremental append \
--check-column id \
--last-value 3

4、根据时间进行大量追加（不去重）

 1 追加  
 2 sqoop import \
 3 --connect jdbc:mysql://master:3306/student \
 4 --username root \
 5 --password 123456 \
 6 --target-dir /user/hive/warehouse/sqlhivetest.db/student_zeng/ \
 7 --table student_zeng \
 8 --fields-terminated-by '\t' \
 9 --check-column last_mod \
10 --incremental lastmodified \
11 --last-value "2019-12-19 20:57:16" \
12 -m 1 \
13 --append

结果：但是我们发现有两个重复的字段

5、往往开发中需要进行去重操作：sqoop提供了一个方法进行去重，内部是先开一个map任务将数据导入进来，然后再开一个map任务根据指定的字段进行合并去重

#根据业务可能需要去重  -merge-key 就是做这个事

sqoop import \
--connect jdbc:mysql://master:3306/student \
--username root \
--password 123456 \
--target-dir /user/hive/warehouse/sqlhivetest.db/student_zeng/ \
--table student_zeng \
--fields-terminated-by '\t' \
--check-column last_mod \
--incremental lastmodified \
--last-value "2019-12-19 22:00:09" \
-m 1 \
-merge-key id

结果：

之前有重复的也进行合并去重操作，最后生成一个结果。

猜你喜欢

转载自www.cnblogs.com/wyh-study/p/12079670.html

大数据之路week07--day07 （Sqoop 从mysql增量导入到HDFS）

大数据之路week07--day07 （修改mysql默认编码）

用Sqoop把数据从HDFS导入到MYSQL

Sqoop的安装与Mysql的数据导入到hdfs框架中

txt 文件导入到mysql 到 mysql 中表及表中的数据使用 sqoop 导入到 hdfs中

大数据之路week07--day06 （Sqoop 的使用）

使用sqoop工具将数据从mysql数据库导入到HDFS和Hbase

sqoop——将mysql数据库的数据表导入到hdfs上

大数据之路week07--day06 （Sqoop 将关系数据库（oracle、mysql、postgresql等）数据与hadoop数据进行转换的工具）

sqoop 从mysql导入数据到HDFS

大数据之路week07--day06 （Sqoop 在从HDFS中导出到关系型数据库时的一些问题）

2018-09-07期 Sqoop将关系型数据导入到HDFS文件系统

记sqoop将mysql数据增量导入hdfs的致命问题

使用sqoop将mysql数据导入到hadoop

用sqoop将mysql的数据导入到hive表

sqoop将mysql的数据导入到hive表中

sqoop 数据从hive导入到mysql 遇到的坑

使用sqoop将mysql数据导入到hive中

sqoop增量数据导入

3.2.3 Sqoop 数据迁移工具, 导入数据import, MySQL到HDFS/Hive, 导出数据export,增量数据导入, Sqoop job,常用命令及参数

Sqoop- sqoop将mysql数据表导入到hive报错（未解决）

sqoop 导入增量数据到hive

sqoop命令，mysql导入到hdfs、hbase、hive

sqoop2-mysql导入到hdfs

sqoop2从hdfs中导入到mysql

大数据之路week07--day06 （Sqoop 的安装及配置）

利用Sqoop将数据从数据库导入到HDFS

利用SQOOP将数据从数据库导入到HDFS(没有整形主键的解决)

用Sqoop把数据从HDFS导入到关系型数据库

Sqoop(将关系型数据库的数据导入到HDFS)

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)