【持续更新】talend数据集成的学习、使用和心得记录,市面最好的talend教程

需求:

我司用的是talend6.4版本,该工具是做ETL的。我们主要是用来做数据集成

我目前对ETL的大体理解是,将A数据库的数据,根据业务需求查出来之后-》在存到另一个B数据库-》然后做BI的时候,是直接从B库里取数据。正好对应软件的数据集成功能

注意:

我这是数据集成,数据集成,看好咯 在继续往下看。

如 TAC:TAC是为了建立一个连接中心,然后达到多用户在不同地域协同工作的目的(必须买许可证才能用)

建议:

大家不要去百度直接搜,教程什么的,我发现搜出来的都是五花八门的,总之 都是没啥用的。

如 博客搜出来2篇 常用组件的,刚接触我都不会用,看常用组件有啥用。

要不就是csdn要分下载的,下下来 是2014年的文档 还七零八散的不全。

建议大家直接去官网,虽然是全英文,谷歌浏览器 右键翻译成中文能解决你很大的问题。

然后就是在文档中找到你需要的文档,在不断的执行。

概念:

架构就是表结构,作业就是工作;

作业 == 新建一个图纸(设计区域);

组件 == 给函数封装成了带可视化的图形(我的理解是,所谓的 组件是java通过操作数据库的api,封装的函数,该函数上面放了个图标,就变成了 一个可视化可拖动傻瓜式的一个组件了);

    映射组件 == 中间表的功能

作业下面(控制台) == 修改组件配置参数的(往被封装的函数里传参);

个人习惯操作流程:

先挑选组件,在作业区域摆好后(

      2种方法:

            1、从元数据中拖出来(如 file delimted中先创建好)

            2、从右侧先选好。什么时候用哪种看文档

-》连好线

-》设置组件的属性(自动填充:有的需要从元数据中拖到组件上)

-》执行(输出结果)

重要文档:

点击查看官网

点击查看教程

点击查看论坛

点击查看帮助中心

组件相关的文档如何学习与使用(从帮助中心进来)

第1个demo的文档(从帮助中心进来):

一层一层的找到这里,或点击直达文档


 

总结:

点击查看第一个demo

以下主要是针对,官方教程,不太明细的地方写出来,方便大家跟着操作。

是对官方教程的一个补充而已,跟着官方教程跑就可以了,一边跑就一边会遇到下边这些问题

1、在metadata->file delimited中导入文件的时候,注意保留字段名(如果不需要保留字段名请忽略该设置)

准备数据(cvs数据格式如下):

个人理解:所谓的schema就是表结构

2、配置好的元数据,如何在组件上使用

也可以将test_moviies直接拖到作业上,使用

3、如何输出,一行一列的数据(如下图效果)

4、添加一个新表

5、导入的数据时,如何修改默认的字段名

6、在连线中添加组件,如何拖进去

第1种方法:选中2个组件中的连线,删掉,在一个一个重新连(先断开,在连接)

第2种方法:

7、删除 元数据中 值 前面的空格(左空格)

8、映射组件tmap(N表相连 的 连表条件)

双击tmap就能进入下图

9、另一种拖动组件的方式

10、总结

tmap的连接图,可以看出row1和row2是出入源(看上图的连线的名字);

valid_movies和invalid_movies1是要输出的表(看上图连线的名字);

下图中的catch_lookup._inner join reject 使用此设置,任何没有导向器ID或导向器ID与参考文件中的ID不匹配的记录都将传递到此输出。(就是inner join匹配不上的,会输出到invalid_movies组件中;相反inner join匹配上的输出到valid_movies组件中)

输出组件的配置详解

点击查看组件文档

思路:聪明的做法是,找到该组件的文档,看完参数讲解之后,跑场景(案例、demo),以做为学

 

案例2:

需要用到的组件:

思路:根据手册,对该组件的定义联想而出

tRowGenerator  //该组件(函数)生成随机数

tJavaRow      //该组件(函数)提供一个代码编辑器,允许通过代码操作java的函数,处理数据

tLogRow      //在运行控制台中显示数据或结果以监视已处理的数据

具体的实现步骤:

猜你喜欢

转载自blog.csdn.net/qq_33862644/article/details/81182513