版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/fzuzhanghao1993/article/details/78784877
摘要:在kettle6.0中连接读写hadoop和hbase与之前版本方法不同,故记录一下使用方法。
环境准备:
windows kettle6.0
jdk1.7
hadoop 2.6.5
hbase 1.2.6
配置
首先配置hadoop的连接插件
打开
工具->hadoop distribute
原生hadoop选择CDH5.4
接下来新建一个hadoop连接配置,username和password可以忽略,我们只需要连接到hdfs即可。配置完后进行test,如图几个关键项通过即可。
读写操作
hdfs Hadoop file input
在左侧transform树中,找到big data(大数据)一栏,将输入“hadoop file
input”拖入操作板中,再设置一个输出目的,这里我选择输出到本地txt文件中。
双击点开hadoop file input,配置输入文件,这边我随意选择了一个配置文件
接下来配置数据处理方式,
这边需要配置输出字段这个sheet,不然你啥也别想得到╮(╯▽╰)╭
输出
Hadoop file output(mysql读取)
mysql的配置以及读入读出前面《kettle6.0基础功能实战》中都有介绍,配置mysql连接,再使用表输入即可这里就不多说了。
写入hdfs要注意一下目录权限问题
配置完成后执行
Hbase读入
1、选择cluster以及hbase文件
2、配置mapping
选择一张表,并为其命名一个mapping,然后配置相关字段
3、选择mapping
Hbase output
配置同input
Tips:
1、上一步骤输入的数据必须要出现在写入mapping里,否则会报Cant find incoming错误,如果不需要写入上一步骤全部字段,可以用过滤。
2、famliy必须先创建,columns可以不用
总览