大数据-Datax安装部署

环境要求:

Linux

JDK 1.8

Python 3.6.5

一、下载压缩包

方法一:下载页面地址:https://github.com/alibaba/DataX

不要在【Clone or download】处下载,那里下载的是源码;对于Java不是很在行的人来说,自行编译显得有点困难。

而是在:【Quick Start】--->【Download DataX下载地址】进行下载。下载后的包名:datax.tar.gz 解压后{datax}目录下有{bin  conf  job  lib  log  log_perf  plugin  script  tmp}几个目录。

方法二:使用命令:wget http://datax-opensource.oss-cn-hangzhou.aliyuncs.com/datax.tar.gz

二、安装

1、首先:解压datax.tar.gz到相应的安装目录: $ sudo tar -zxf ~/下载/datax.tar.gz -C /usr/local

2、修改文件权限$ sudo chmod -R 755 /usr/local/datax

3、由于我的python版本是3以上,官方datax只能使用python2.7版本,是因为语法问题,需要下载相应的文件:https://github.com/365taole/DataX_Python3

解压放置在datax/bin目录,环境切换到py3即可启动,亲测可用

4、进入bin目录 $ cd /usr/local/datax/bin

三、同步作业测试

例一、 hadoop@hadoop-master:/usr/local/datax/bin$ python3 datax.py /usr/local/datax/job/job.json

1 结果:
2 2020-02-29 12:29:32.717 [job-0] INFO  JobContainer - 
3 任务启动时刻                    : 2020-02-29 12:29:22
4 任务结束时刻                    : 2020-02-29 12:29:32
5 任务总计耗时                    :                 10s
6 任务平均流量                    :          253.91KB/s
7 记录写入速度                    :          10000rec/s
8 读出记录总数                    :              100000
9 读写失败总数                    :                   

例二、mysql数据同步到hdfs中

1.

 

猜你喜欢

转载自www.cnblogs.com/daisy99lijing/p/12383350.html