-----------------简单理解--------------其实是百度的-----------------------
ETL,是英文 Extract-Transform-Load 的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。ETL一词较常用在数据仓库,但其对象并不限于数据仓库。
ETL包含了三方面:
抽取:将数据从各种原始的业务系统中读取出来,这是所有工作的前提。
转换:按照预先设计好的规则将抽取得数据进行转换,使本来异构的数据格式能统一起来。
装载:将转换完的数据按计划增量或全部导入到数据仓库中。
-----------------------简单的操作方式----------------SHIFT哥讲了1h------------很有耐心------加班时候get到的新技能-----
(1)SPOON解压就能够使用
(2)解压后,
- Spoon.bat:在windows 平台运行Spoon。
- Spoon.sh:在 Linux、Apple OSX、Solaris 平台运行 Spoon。
(4)有时候运行不上,在lib文件夹中添加,orail18n.jar、ojdbc6.jar
(5)输入、输出
(6)分别连接输入、输出的数据库,表
双击数据库,填信息,可以测试是否连接,可以确定
(7)直接从左边拖图标到右边作业中,详细解析
网址:http://wenku.baidu.com/link?url=1AfKapKbPGJVCHXHVz9A-eWfz3EjYNPZgFUYA-hEeRlxBO1kdSu8dZBcxYjLrm_mUYZOE4O19JyTiE4oalxqEQlcuOM40v4iMYnT02xeZza
其实很多功能用不到,自己也没有真正试过,,,有兴趣可以研究下
表输入、输出,直接拖动到作业,点击编辑,输入:
输出:
输出映射:
(8)连接 shift 拖动鼠标
(9)没啥问题就开始转换吧。。。。从A表转换为B表。。。。
-------------------------比较常使用的-----------------------------------
(1)数据库查询
,说实话,自己都不太会用,一般情况是,查询不同表的内容
相当于根据表C的id查name,插到B当中,A当中只有id没有name
(2)转换-值映射,数据字典一一对应
双击,
(这个问题犯过几个错,其实A-B的表转换当中,可以插入很多个值映射)
例如:
-------------折腾了几个小时的问题---------------
遇到SPOON错误,无法保存,或者一打开便显示问题
解决办法:到(~/.kettle/shared.xml)
文件目录下,删除(~/.kettle/shared.xml)文件,重启SPOON
附上网址:http://forums.pentaho.com/showthread.php?93473-Unexpected-problem-reading-shared-objects-from-XML-file-null
----------------提交GIT没提交上去--------最后才发现------文件夹没进去--------------------------------------------
可以先查看 git status 查看当前git状态
在Git需要上传的文件当中,(注意:需要进到需要上传的文件夹内)
提交Git的bush ①git add -A(上传全部文件)
②git commit -am(表示提交全部文件)
③git pull origin master (master为所在分支对应的master)
④git push origin master(master为所在分支对应的master)