数据库和MPP数仓(六):开源ETL工具kettle的使用

Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,数据抽取高效稳定。

Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。Kettle这个ETL工具集,它允许你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么,而不是你想怎么做。Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。

 Kettle的使用

 首先解压下载的压缩包,然后打开spoon.bat,如图所示:

 

在文件->新建转换

建立数据库连接的过程与其他数据库管理软件连接数据库类似。注意:在数据库链接的过程中,可能会报某个数据库连接找不到的异常。那是因为你没有对应的数据库链接驱动,请下载对应驱动后,放入kettle的lib文件夹。

简单的数据表插入\更新

(1)新建表插入:在左边的面板中选择“核心对象”,在核心对象里面选择“输入->表输入”,用鼠标拖动到右边面板。如图所示:

双击拖过来的表,可以编辑表输入。选择数据库连接和编辑sql语句,在这一步可以点击预览,查看自己是否连接正确。

(2)通过表输出 输出到表:在左边面板中选择核心对象、选择“输出->表输出”如图所示:

编辑表输出:首先:表输入连接表输出,,选中表输入,按住shift键,拖向表输出。然后:双击表输出,编辑它可以点击运行查看效果,看是否有误,这个要先保存了才能运行,可以随意保存到任何一个地方。

使用作业控制上面转换执行

使用作业可以定时或周期性的执行转换,新建一个作业。并从左边面板拖入start 和转换。

 点开转换,可以设置需要执行的转换任务,比如可以执行上面我们做的转换,XXX.ktr

Excel输入->表输出

选择要处理的Excel文件,表格类型为2007,选择对应sheet工作表名称,选择表头字段,对应目标输出表中的字段

发送邮件

1:邮箱授权,登录邮箱选择设置下的POP3/SMTP/IMAP,发件地址可以使用的QQ、126、163等邮箱。

2:设置授权密码,授权密码不能和登录密码一样,这个需要短信验证。

3:服务器配置,smtp server的填写smtp.qq.com或者smtp.126.com等等都可以

选择资源库

kettle资源库是用来保存转换任务的,用户通过图形界面创建的的转换任务可以保存在资源库中。资源库可以使多用户共享转换任务,转换任务在资源库中是以文件夹形式分组管理的,用户可以自定义文件夹名称。

资源库有两种形式:

1、Kettle database repository,即保存在各种常见的数据库资源库类型,用户通过用户名/密码来访问资源库中的资源,默认的用户名/密码是admin/admin和guest/guest。

2、Kettle file repository,保存在服务器硬盘文件夹内的资源库类型,此类型的资源库无需用户进行登录,直接进行操作。

猜你喜欢

转载自blog.csdn.net/yezonggang/article/details/109470183
今日推荐