datax初体验 datax初体验

一、什么是datax

  datax是阿里巴巴开源的一款离线数据同步工具、通过框架。支持在异构数据源之间同步数据。

  使用者可以轻松地的在结构化数据(mysql、sqlserver、oracle...)、非结构化数据(mongo、hive...)、结构与非结构之间同步数据。

二、使用datax

2.1 系统环境

  • Linux
  • JDK(1.8以上,推荐1.8)
  • Python(推荐Python2.6.X)
  • Apache Maven 3.x (Compile DataX)
  • git

2.2 部署

方法一、直接下载DataX工具包

  datax下载地址

下载后解压至本地某个目录,进入bin目录,即可运行同步作业:

cd  {YOUR_DATAX_HOME}/bin
python datax.py {YOUR_JOB.json}

自检脚本 

python {YOUR_DATAX_HOME}/bin/datax.py {YOUR_DATAX_HOME}/job/job.json

 正常打印日志,表示datax可以使用

方法二、下载源码,自己编译

  datax源码下载地址

1)下载源码(没有git的同学自行百度)

git clone https://github.com/alibaba/DataX.git

2)通过maven打包(没有安装maven的同学自行百度)

cd {DataX_source_code_home}
mvn -U clean package assembly:assembly -Dmaven.test.skip=true

参考

1.datax github - https://github.com/alibaba/DataX

一、什么是datax

  datax是阿里巴巴开源的一款离线数据同步工具、通过框架。支持在异构数据源之间同步数据。

  使用者可以轻松地的在结构化数据(mysql、sqlserver、oracle...)、非结构化数据(mongo、hive...)、结构与非结构之间同步数据。

二、使用datax

2.1 系统环境

  • Linux
  • JDK(1.8以上,推荐1.8)
  • Python(推荐Python2.6.X)
  • Apache Maven 3.x (Compile DataX)
  • git

2.2 部署

方法一、直接下载DataX工具包

  datax下载地址

下载后解压至本地某个目录,进入bin目录,即可运行同步作业:

cd  {YOUR_DATAX_HOME}/bin
python datax.py {YOUR_JOB.json}

自检脚本 

python {YOUR_DATAX_HOME}/bin/datax.py {YOUR_DATAX_HOME}/job/job.json

 正常打印日志,表示datax可以使用

方法二、下载源码,自己编译

  datax源码下载地址

1)下载源码(没有git的同学自行百度)

git clone https://github.com/alibaba/DataX.git

2)通过maven打包(没有安装maven的同学自行百度)

cd {DataX_source_code_home}
mvn -U clean package assembly:assembly -Dmaven.test.skip=true

参考

1.datax github - https://github.com/alibaba/DataX

猜你喜欢

转载自www.cnblogs.com/chenzl44/p/11449302.html