大数据迁移分析——Canal尝试

目前使用StreamSets作为数据ETL工具,迁移MySql 时遇到了致命问题,大致涵盖堆栈内存溢出、找不到指定的binaryLog文件、数据重复挂起等问题,以致于在商用的时候步履维艰!项目面临严重的拖期甚至于死掉,而我作为此事情的主要执行人,也受到各方责难!我对StreamSets的信心也是与日递减,为了让事情变得可行,必须跳出原有的固有思维,先以解决问题为目的,寻找备选方案。

目的转变为: 解析MySql Binary Log 》读取更改数据》插入到其他数据库
ooop,binary Log的格式解析,一听就不是个简单的工程啊,这,是要死的节奏吗?打开万能的github,翻翻有没有.net /.net core的项目? 老天啊,都是java的,不管了,黑猫白猫逮住老鼠都是好猫!
接下来闪亮登场的就是阿里的亲儿子~~~

Canal

canal [kə’næl],译意为水道/管道/沟渠,主要用途是基于 MySQL 数据库增量日志解析,提供增量数据订阅和消费,早期阿里巴巴因为杭州和美国双机房部署,存在跨机房同步的业务需求,实现方式主要是基于业务 trigger 获取增量变更。从 2010 年开始,业务逐步尝试数据库日志解析获取增量变更进行同步,由此衍生出了大量的数据库增量订阅和消费业务。
阿里出品,天然的支持RDS,这是一道闪亮的星!因为我们的需求就是RDS的迁移,虽然RDS是基于MySql构建,可谁知道呢?

在这里插入图片描述
基于日志的业务可以扩展

猜你喜欢

转载自blog.csdn.net/webmote/article/details/102562623