精简版DataX
目录
概述
阿里的DataX
精简版,可以在windows
下,仅依赖Java8
即可运行。建议在linux
下使用原本的DataX
。抱歉,收一点积分作为周末劳作的奖励,谢谢。精简版下载地址: https://download.csdn.net/download/killingbow/12158389
一、快速开始
执行run.bat
可以转换in
目录下所有csv文件到out
目录下,并由逗号做csv
分隔符,转为使用tab
作为csv
分隔符。这个转换于job/csv2csv.json
中定义。
注意:
csv2csv.json
的windows
版本与linux
版本是不能混用的。作为inputstream
的csv
的encoding
虽然实际上是以utf8
编码的,在windows
版本要写成gbk
,才会有正确的输出。这可能是由于DataX的bug导致的,但如果在linux就完全没有问题。
二、进阶
job
路径下有若干*.json文件,通过修改配置可以实现sqlserver
、文本文件、stream
、ftp
之间的数据的互转。run.bat
中第一行set JOB_NAME=csv2csv
中的"csv2csv"代表job
文件的名字csv2csv.json
,run.bat
会因此运行这个csv2csv.json
配置并输出以此命名的日志,通过修改这里的JOB_NAME
即可改变要被运行的任务。
关于job
的json
格式配置文件,其内容可以由setting
和content
两部分组成。setting
部分的channel
设置为"1"即可。content
中的reader
和writer
可参考plugin
目录下的reader
和writer
目录中对应插件文件夹中的plugin_job_template.json
的内容。详细的配置文档可以在datax
的github
官方源码目录找到,每个reader
和writer
都有非常详细的属性定义包含是否必选、默认值、枚举与值域等等。
三、自定义精简版
希望加入更多模块到精简版,可以从正式版本的plugin
中拷贝reader
和writer
到当前的对应目录下。将这些reader
和writer
的lib
目录移动到公共的lib
之中达到共享和精简的目的。
关于
- 撰写: tlw
- 日志:
- 20200215: 创建