说在前面
- 操作系统:win10
- kettle版本:8.3
- 数据集:Soda
场景
- 数据集中有空的记录不需要
- 对数据进行分段
主要Kettle操作
-
以下示例涉及的字段
-
记录过滤
在记录中发现只有PH、以及电导率存在空,判断时只需判断这两个字段就可以了
过滤记录存在一个判断条件,需要两个输出,一个为条件为真时的输出,另一个为假;
如下图,发送true数据给步骤,对应上图“空操作”;发送false数据给步骤,对应字段选择2;
在”条件“方框中可以进行选择,以及处理多个条件
-
JavaScript脚本
js脚本界面如下;
区域1:一些js函数,输入变量
区域2:js代码编辑区
区域3:输出字段编辑区
以处理PH为例,假如我们需要将ph值划分为[4, 5)、[5, 6)、[6,7]三个区间;
首先我们需要区域1中的PH字段作为输入;
然后定义一个输出字段,假设字段名为PH_sign,String型;在区域3添加对应的字段;var ph = PH;
然后编写js代码,让PH_sign的值变为我们需要的;
这样就大功告成了if(ph<5) PH_sign="[4,5)"; else if(ph<6) PH_sign="[5,6)"; else if(ph<7) PH_sign="[6,7]";
结果
-
流程