需求:
异构数据库oracle到PG同步,后续可能到hadoop等大数据平台。
工具以及对比:
工具 |
支持异构 |
数据方向 |
开源 |
GUI |
kettle |
√ |
多种(大数据和RDBMS)->多种 |
√ |
√ |
DataX |
√ |
多种->多种 |
√ |
× |
Sqoop |
√ |
大数据->RDBMS, RDBMS->大数据 |
√ |
× |
Streamsets |
√ |
多种->多种 |
√ |
√ |
Informatica |
√ |
多种->多种 |
× |
√ |
Talend |
√ |
多种->多种 |
√ |
√ |
DataPipeline |
√ |
多种->多种 |
× |
√ |
datastage |
√ |
多种->多种 |
× |
√ |
ODI |
√ |
多种->多种 |
× |
√ |
Apatar |
√ |
多种->多种 |
√ |
√ |
DataX:
1.使用在hadoop时,如果文件过大,作为源端数据导入目标数据库时会有数据缺失;
2.datax往gp中写数最好使用gp的writer方式,否则会很慢。
Kettle:
性能较DataX等较差。
Datastage和Informatica商业,功能完备,市场占有率高。
ODI:oracle耦合度高。
Sqoop和Streamsets更适用于大数据相关的数据源。
Talend:开源版没有调度程序,且后续的维护运维成本高,建议商业版。按照用户数收费,开发用户多不合算。
结论:
开源采用DataX,或者(大数据场景时)Sqoop和Streamsets,
商用Talend,Datastage,Informatica。