kettle实战-5kettle+OMI实战场景-5.1大数据场景POC

  本场景是为某大数据项目做的一个产品POC,现在分享给大家。此项目主要从几个业务系统中同步数据进行加工处理分析,最后生成API供前端展示。POC分两大场景,一个非实时场景及准实时场景。


  非实时场景流程如上图,OMI(onemysoft.com开发的一个以kettle为引擎的数据处理平台)通过调度定时从若干业务系统中抽取数据,按照相应逻辑生成文本文件,传至FTP或阿里云的OSS分布式文件系统。然后OMI将生成的文件读取出来写入到hadoop环境,采用的是hive2的JDBC方式,再者是OMI对数据进行加工处理。最后是将数据发布出API供前端使用
 


  准实时场景第一个,是通过阿里的canal工具实时同步mysql(或阿里云RDS)系统的数据至消息队列kafka中,OMI通过配置MQ监听,进行消费,将数据处理至hive、mysql或redis中,以方便前端使用。
  下面章节将分别对每一个步骤详细说明。

猜你喜欢

转载自blog.csdn.net/onemy/article/details/94397478