前言
- 1. ETL是什么?
- 2.Kettle是什么?
1. ETL是什么
ETL简介
ETL分别是“Extract”、“ Transform” 、“Load”三个单词的首字母缩写也即数据抽取、转换、装载的过程,但我们日常往往简称其为数据抽取。ETL是BI/DW( Business Intelligence/Data Warehouse , 商务智能/数据仓库)的核心和灵魂,按照统一的规则集成并提高数据的价值,是负责完成数据从数据源向目标数据仓库转化的过程,是实施数据仓库的重要步骤。
ETL包含了三方面:
- Extract(抽取):将数据从各种原始的业务系统中读取出来,这是所有工作的前提。一般抽取过程需要连接到不同的数据源,以便为随后的步骤提供数据。这一部分看上去简单而琐碎,实际上它是 ETL 解决方案的成功实施的一个主要障碍。
- Transform(转换):按照预先设计好的规则将抽取得数据进行转换,使本来异构的数据格式能统一起来。任何对数据的处理过程都是转换。这些处理过程通常包括(但不限于)下面一些操作:
- 移动数据
- 根据规则验证数据
- 数据内容和数据结构的修改
- 将多个数据源的数据集成
- 根据处理后的数据计算派生值和聚集值
- Load(装载):将转换完的数据按计划增量或全部导入到数据仓库中。也就是说将数据加载到目标系统的所有操作。
ETL过程中实现数据清洗的实现方法
首先,在理解源数据的基础上实现数据表属性一致化。为解决