数据仓库,纯开源 ETL 清洗、调度技术方案,高效稳定

随着大数据的发展,BI 应用越来越广泛,中小型 BI 项目,如何选型 ETL 技术困惑着众多程序猿。本文主讲技术干货,利用开源技术快速搭建高效稳定 ETL 平台。本文对于 ETL 原理及数据库仓库层次结构,不做具体描述,专谈技术。

本文主要分享以下内容:

  1. Kettle 如何做数据清洗,清洗规则脚本过多如何规划,清洗规则脚本如何跨平台跨数据库。
  2. 解决 Kettle(Pan 、 Kitchen)执行效率慢,占用大量内存问题;本文中采用 Kettle 内部 API 接口调用,支持高并发。
  3. 开源任务调度平台选型,自动化管理任务,任务执行结果报表,任务可视化定时策略选择器(失败重新执行、失败发送邮件短信),多节点服务器执行。
  4. 任务调度平台集成 ETL(KTR、 KJB)执行日志。

阅读全文: http://gitbook.cn/gitchat/activity/5c9485cdccb802448e6c01a0

一场场看太麻烦?成为 GitChat 会员,畅享 1000+ 场 Chat !点击查看

猜你喜欢

转载自blog.csdn.net/valada/article/details/88881147