ETL工具Kettle研究-1-ETL认识与Kettle研读

前言

  • 1. ETL是什么?
  • 2.Kettle是什么?

1. ETL是什么

ETL简介

ETL分别是“Extract”、“ Transform” 、“Load”三个单词的首字母缩写也即数据抽取、转换、装载的过程,但我们日常往往简称其为数据抽取。ETL是BI/DW( Business Intelligence/Data Warehouse , 商务智能/数据仓库)的核心和灵魂,按照统一的规则集成并提高数据的价值,是负责完成数据从数据源向目标数据仓库转化的过程,是实施数据仓库的重要步骤。

ETL包含了三方面:

  • Extract(抽取):将数据从各种原始的业务系统中读取出来,这是所有工作的前提。一般抽取过程需要连接到不同的数据源,以便为随后的步骤提供数据。这一部分看上去简单而琐碎,实际上它是 ETL 解决方案的成功实施的一个主要障碍。
  • Transform(转换):按照预先设计好的规则将抽取得数据进行转换,使本来异构的数据格式能统一起来。任何对数据的处理过程都是转换。这些处理过程通常包括(但不限于)下面一些操作:
  1.  移动数据
  2.  根据规则验证数据
  3.  数据内容和数据结构的修改
  4.  将多个数据源的数据集成
  5.  根据处理后的数据计算派生值和聚集值
  • Load(装载):将转换完的数据按计划增量或全部导入到数据仓库中。也就是说将数据加载到目标系统的所有操作。

ETL过程中实现数据清洗的实现方法


 首先,在理解源数据的基础上实现数据表属性一致化。为解决

猜你喜欢

转载自blog.csdn.net/as4589sd/article/details/104164630