flinkx架构

FlinkX是在袋鼠云内部广泛使用的一个基于Flink的异构数据源离线同步工具，用于在多种数据源（MySQL、Oracle、SqlServer、Ftp、Hdfs,HBase、Hive、Elasticsearch等）之间进行高效稳定的数据同步。

FlinkX简化了数据同步任务的开发过程，用户只需提供一份数据同步任务的配置，FlinkX会将配置转化为Flink任务，并自动提交到Flink集群上执行。

1、FlinkX的设计思路

1.1 插件式架构

FlinkX采用了一种插件式的架构：

整个数据同步任务共有的处理逻辑被抽象在Template模块中，该模块根据数据同步任务配置加载对应的Reader和Writer插件，组装Flink任务，并提交到Flink集群执行；

FlinkX支持任意数据源类型的数据同步工作

FlinkX框架可以支持任意数据源类型的数据同步工作。作为一个开放式系统，用户可以根据需要开发新的插件，以接入新的数据库类型。

1.2 Flink任务的自动组装

Template模块根据同步任务的配置信息加载源数据库和目的数据库对应的Reader插件和Writer插件；

Reader插件实现了InputFormat接口，从源数据库中获取DataStream对象；

Writer插件实现了OutputFormat接口，将目的数据库与DataStream对象相关联；

Template模块通过DataStream对象将Reader和Writer串接在一起，组装成一个Flink任务，并提交到Flink集群上执行。

Flink任务的自动组装

2、FlinkX的优势

一、便于使用

用户只需要提供一份数据同步配置信息，无需编写程序，FlinkX会配置信息自动转换为Flink任务并提交到Flink集群执行。

二、性能优越

FlinkX会将数据同步任务提交到Flink集群中的执行，使得FlinkX天然具有Flink的性能优势，主要表现为分布式、低延迟、高吞吐和高可靠。

三、多运行模式

同普通的Flink任务一样，FlinkX支持local、standalone和yarn三种运行模式。

「local模式」就是在本地开启一个mini的Flink集群执行Flink任务，这种运行模式的好处是使用方便，不需要预先启动分布式集群，适用于测试和实验环境；缺点是由于单点执行，可靠性差，当数据量大时吞吐量受限；
「standalone模式」是指以独立部署的方式启动一个Flink集群，然后将提交Flink任务到该集群上执行；
「yarn模式」是指在yarn集群中部署Flink集群，然后将Flink任务提交到部署在yarn集群中的Flink集群上执行；standalone模式和yarn模式都是分布式地执行FlinkX，而yarn模式可以利用yarn的资源管理功能，因而成为部署FlinkX应用时的首选。

3、开放式可扩展

只要你愿意，你可以给任何类型的数据源开发Reader和Writer插件。

4、错误控制和脏数据管理

发布了184 篇原创文章 · 获赞 32 · 访问量 11万+

私信关注