大数据-数仓-数据采集-业务数据(二):全量同步采集【MySQL<-->DataX(全量)<-->HDFS】【每日全量:每天都将业务数据库中全部数据同步到数据仓库,是保证两侧数据同步的最简单方式】

在这里插入图片描述

DataX源码地址:GitHub - alibaba/DataX: DataX是阿里云DataWorks数据集成的开源版本。

一、第1章 DataX介绍

1.1 DataX概述

1. 介绍:DataX是阿里巴巴开源的一个异构数据源离线同步工具,致力于实现包括关系型数据库(Mysql、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。

2. 特点:

① DataX侧重于同步数据库中的数据

猜你喜欢

转载自blog.csdn.net/u013250861/article/details/130037696