全量表、增量表、拉链表如何生成？ - 代码天地

全量表、增量表、拉链表如何生成？

其他 2021-01-29 20:05:44 阅读次数: 0

增量表

增量抽取

使用sqoop将业务系统数据库的表数据导入到hdfs中，因为要导入的是增量数据，所以需要
指定更新字段，这个字段有变化就是增量数据
再就是
指定上一次更新的时间
增量导入模板：

bin/sqoop import \
--connect jdbc:mysql://doitedu01:3306/realtimedw?characterEncoding=utf8\&useUnicode=true \
--username root \
--password ABC123abc.123   \
--table  stu \
--target-dir '/sqoopdata/incr/stu/2020-09-05'  \
--incremental lastmodified \
--check-column update_time \
--last-value '2020-09-05 00:00:00'  \
--fields-terminated-by '\001' \
--as-textfile   \
-m 1

注意：使用sqoop生成的数据时存放在hdfs中的指定目录下，所以还需要load到hive表中，才能查询使用。在load之前我们应该先建表分区，再导入！

全量表

假如现在有2号的全量表，要生成3号的全量表，那么就需要2号的增量数据，将2号的全量表和3号的增量表合并起来，就能的到3号的全量表数据。

生成全量表数据有两步：
1、生成表的jar包，其实就相当于schema信息
指定表名，指定表jar包存放的位置，指定jar包名

bin/sqoop codegen \
--connect jdbc:mysql://doitedu01:3306/realtimedw \
--username root \
--password ABC123abc.123   \
--table stu \
--bindir /opt/apps/code/stu \
--class-name Stu \
--as-parquetfile

2、再使用merger命令将增量数据和先前的全量数据合并
指定先前全量表的位置（hdfs路径）–onto
指定增量表的位置（hdfs路径） --newdata
指定新的全量表的位置
指定表jar包位置
指定jar名
指定合并的行

bin/sqoop merge \
--new-data /user/hive/warehouse/test.db/stu_newdata/dt=2020-09-03 \
--onto /user/hive/warehouse/test.db/stu/dt=2020-09-02 \
--target-dir /user/hive/warehouse/test.db/stu/dt=2020-09-03 \
--jar-file /opt/apps/code/stu/Stu.jar \
--class-name Stu \
--merge-key id

拉链表

增量表的数据可以单独生成一部分数据

拉链表的数据left join 增量表，然后有哪些要修改的呢？
能join上的，而且拉链表中数据的end_dt是‘9999-12-31’，这种数据就应该
把end_dt改为拉链表的分区时间。其他情况都用拉链表数据的原数据。

猜你喜欢

转载自blog.csdn.net/weixin_43648241/article/details/108961783

全量表、增量表、拉链表如何生成？

什么是全量表，增量表，快照表，拉链表？

增量表、全量快照表、拉链表开发

hive数据库设计中的拉链表、增量表、全量表

【每日一学】数据仓库之全量表、增量表、拉链表、流水表

数据仓库中的拉链表，全量表，增量表，切片表

数仓中的全量表，增量表，拉链表，流水表，快照表

数据仓库中的增量表，全量表，快照表，拉链表

数仓中的全量表、增量表、拉链表、流水表、快照表

大数据-数据仓库：全量表，增量表，拉链表，流水表，快照表

增量表、全量表、拉链表的应用场景及优缺点详解

hive拉链表和增量表

增量表及拉链表,你懂了吗?

（转载）一文搞定数据仓库之拉链表，流水表，全量表，增量表

一文搞定数据仓库之拉链表，流水表，全量表，增量表

【数据仓库】全量表、快照表、增量表、拉链表、维度表、实体表、事实表

Hive数据仓库之全量表、增量表、快照表、切片表和拉链表

数仓中的全量表，增量表，拉链表，流水表，快照表机会终于来了系列

Apache Hudi拉链表的全量表优化方案

数仓建模-增量表及全量表

4、离线数仓数据同步策略（全量表数据同步、增量表数据同步、首日同步、采集通道脚本）

量表题如何分析？

双向量表双向循环链表

增量数据下发整合成全量表的程序分享

非量表数据应该如何分析？

如何安全的大数据量表在线进行DML操作

量表选择的经书？

词的向量表示

Highcharts 音量表

中断向量表

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)