一、简介
hadoop版本:2.7.2
kettle(pdi)版本:8.3.0
使用方式:在windows上使用kettle连接到一台linux的hadoop。
二、操作
MySQL
1、将mysql-connector-java-XXX.jar拷贝到data-integration\lib
目录下。
2、启动kettle,然后新建表输入,选择mysql,填入相应内容。
3、进行测试,如果没有问题则会成功。
HDFS
1、首先进入~\data-integration\plugins\pentaho-big-data-plugin\hadoop-configurations,这里没有我需要的hadoop版本,所以将hdp30文件夹拷贝一份,命名为hadoop27。进入hadoop27文件夹,将linux中的配置文件拷贝出来替换掉原本的内容。如下图。
2、在linux系统中,拷贝~/hadoop-2.7.2/share/hadoop/common
下的hadoop-common-2.7.2.jar到lib目录下。为了方便后面的hive使用,把~/hive-1.2.1/lib
文件夹中的hive-*.jar也拷贝到lib目录下。
3、右键新建一个HDFS连接。
4、填写内容,这里如果没有账号密码则不要填写。同样,oozie和kafka没有的话可以不填写。zookeeper最好还是填写上。
5、点击测试,如果图中标注的位置出现了警告,则需要检查一下hdfs是否有权限访问,以及hdfs的/user目录下是否有windows用户的目录。
6、到了这一步完成,就可以在转换中使用hdfs了。
Hive
1、首先要确定hiveserver2是开启的,默认端口号是10000。如果没有开启,则进入hive安装目录,使用nohup bin/hiveserver2 &
命令开启。
2、kettle新建表输入,选择hive2/3,填写相应内容。
3、如果之前已经拷贝好了hive相应的jar包,则可以测试一下,这里是可以连接成功的。