因为业务需要将数据从SQL(mysql,SQLserver)抽取到habse集群中。
大数据组件如下:
mysql版本
[root@localhost ~]# mysql -V
mysql Ver 8.0.17 for linux-glibc2.12 on x86_64 (MySQL Community Server - GPL)
[root@localhost ~]#
准备工作:
- 下载 pdi-ce-8.2.0.0-342.zip
- 数据库驱动jar(pdi-ce-8.2.0.0-342\data-integration\lib)
mysql-connector-java-8.0.17.jar,不同的数据库需要下载不同的驱动版本。
Mysql驱动下载地址:
https://blog.csdn.net/weixin_41804049/article/details/87719574
配置kettle匹配的大数据类型参数:
pdi-ce-8.2.0.0-342\data-integration\plugins\pentaho-big-data-plugin下面的plugin.properties
因为我这边用的是ambari2.7版本,对应hdp30。
准备hbase-site.xml配置,大数据平台中可以获取到。
1.1 Windows环境下,解压pdi-ce-8.2.0.0-342,进入data-integration后可以Spoon.bat脚本。
双击启动脚本。
1.2 点击new transformation 生成一个ktr文件
鼠标右键拖拽选择输入中输入表和Big Data 中Hbase output,选择输入表+ Shift 建立关系连接到Hbase output表。
1.3 双击输入表,修改步骤名称,点击新建,创建数据连接
点击测试,显示连接成功。
点击获取SQL查询的时候,选择需要导出的表字段。
可以自行编写SQL脚本来实现数据库的查询。
1.4 准备好hbase的配置文件,文件获取可以从大数据集群中找到
如果是定时任务,可以重新创建一个job任务。