kettle-8.3.0.0:数据检验、统计与脚本

概述

数据剖析和数据检验:用于数据的检查、清洗 。
统计步骤:提供数据采样和统计的功能。
分区:根据数据里某个字段的值,拆分成多个数据块。输出到不同的库表和文件中。

脚本:Javascript 基础

数据剖析和数据检验

1.数据剖析

分析原始数据的数据类型、长度、值域等,属于ETL的第一步

kettle中使用DataCleaner进行数据剖析

首先需要在工具-marketPlace中安装改插件并重启:https://wiki.pentaho.com/pages/viewpage.action?pageId=23533803

2.数据校验

示例可以查看samples,可以配置例如错误代码,字典表校验等:

一个简单的检验如下:

也可以后面接SWITCH CASE,通过错误代码等进行后续处理

统计

脚本

JS脚本

基础JS参见菜鸟教程

1.在脚本中使用Java类:

不兼容模式:var myVar = new java.lang.String(“pentahochina.com”);
兼容模式:var myVar = new Packages.java.lang.String (“pentahochina.com”);

此时myVar是一个Java的string对象,可以调用Java中的string方法

// 兼容模式为兼容老的kettle,建议不兼容模式的新语法!

2.获取字段:不兼容模式:myVar = FieldName; 兼容模式:根据字段类型的不同,使用不同的方法: myVar = FieldName.getString(); myVar = FieldName.getNumber();

3.给字段赋值:

不兼容模式:直接使用字段名,如 FieldName = myVar;
兼容模式:使用 FieldName.setValue(myVar);

JS代码中有很多内置函数,可以在编写JS代码时左侧查看

支持Alert()的简单调试

发布了378 篇原创文章 · 获赞 19 · 访问量 16万+

猜你喜欢

转载自blog.csdn.net/qq_32252917/article/details/103743411
今日推荐