使用kettle工具定时抽取mysql数据到hbase集群的表中（二） - 代码天地

使用kettle工具定时抽取mysql数据到hbase集群的表中（二）

其他 2019-06-17 17:16:39 阅读次数: 0

安装kettle

官网下载kettle安装包，版本7.1

1.安装完成后在安装目录中找到Spoon.bat，点击后将会启动keetle，如图

启动后界面：

启动时遇到的问题

提示错误[mysql] : org.pentaho.di.core.exception.KettleDatabaseException:
  Error occured while trying to connect to the database
  Driver class 'org.gjt.mm.mysql.Driver' could not be found, make sure the 'MySQL' driver (jar file) is installed.
  org.gjt.mm.mysql.Driver

缺少mysql的驱动jar包，下载mysql-connector-java-5.1.21-bin.jar放在kettle目录下的lib文件夹下，重启kettle。

配置转换任务

1.启动成功后，左上角点击”文件-新建-转换“保存为demo.ktr

2.打开左侧核心对象--》输入--》表输入，拖拽到中间

双击打开，点击新建

选择数据库类型，填写数据库参数配置后点击确认

点击预览，填入想要查询的数据行数，如果能拿到数据说明mysql配置正确

3.打开左侧核心对->big data -> Hadoop File output ,拖放到右端工作台上，并与目标端连接

用鼠标中建连接源端与目标端，或者选中源端，按 shift 将源端指向目标端，如下图:

双击 Hadoop File output，点击new，配置hadoop需要的参数，把红色箭头指向的填好即可，其他的默认。然后点击测试

此时会弹出hadoop版本信息，记下CDH5.8，之后可能会用

测试结果如图：

我们所要达到的效果是前三个为绿沟。但是可能会遇到一些错误。

1）第一个Active Shim Load为红叉。

打开plugins\pentaho-big-data-plugin\plugin.properties 文件

修改 active.hadoop.configuration 为 active.hadoop.configuration=cdh58

红字部分，就是我们上面记录的版本信息，保存现有配置，重启kettle

2）再次测试可能第二个Shim Configuration Verification为黄色感叹号。

复制集群中的 core-site.xml，将该 xml 文件复制到 plugins\pentaho-big-data-plugin\hadoop-configurations\cdh58，替换原有 core-site.xml。记得将原先的core-site.xml备份乙方改出问题进行回退

测试成功后回到原先的界面，选择我们刚刚配置的hadoop连接。

Folder/File/java/kt是我们数据库的数据在hadoop系统中的存放地址，其中kt是文件名，txt是文件后缀。

到此，mysql抽取数据到hadoop的转换过程配置完毕，下面开始执行。

执行转换过程

1.点击左上角文件-》新建—》作业。

点击核心对象-》通用，将start和转换拖入作业中，通箭头连接（按住shift从start拖向转换）

2.双击转换，选择我们刚刚自定义的转换.ktr文件，并自定义转换的名称

点击start，选择一个路径存放运行结果.kjb文件。查看下方日志看是否成功。

执行完可能遇到的错误：没有权限在hadoop中创建和打开文件。此时需要去hadoop系统中放开该路径下的权限。

执行命令

$hadoop fs -chmod 777 /java

在hadoop中验证结果

进入hadoop系统中，执行hadoop命令，查看对应的路径下的文件及其内容

$hadoop fs -text /java/kt2.txt

对比数据库中的数据

抽取成功。

猜你喜欢

转载自blog.csdn.net/github_39538842/article/details/92611487

使用kettle工具定时抽取mysql数据到hbase集群的表中（二）

使用kettle工具定时抽取mysql数据到hbase集群的表中（四）

使用kettle工具定时抽取mysql数据到hbase集群的表中（一）

使用kettle工具定时抽取mysql数据到hbase集群的表中（五）

使用kettle工具定时抽取mysql数据到hbase集群的表中（三）

KETTLE——（二）数据抽取

Kettle(将MySQL数据库汇总的user表中的数据抽取到Excel文件中)

Kettle(将MySQL数据库汇总的user表中的数据抽取到Excel文件中)

Kettle(从MySQL数据库中的kettle库中的user表抽取到文本文件中)

oracle到mysql的单表数据迁移-kettle的使用

【实战】使用 Kettle 工具将 mysql 数据增量导入到 MongoDB 中

数据抽取工具Kettle学习

数据抽取工具Kettle入门

【JEECG示例文档】使用Kettle从mysql向oracle中抽取数据

使用rsync工具定时备份同步服务器数据脚本

kettle 批量抽取多个表数据

kettle 抽取数据到CSV文件

使用jenkins工具定时执行脚本方法

使用ETL工具Kettle实现，把一个数据库中的多张表的数据同步到另外一个数据库中

Kettle spoon中mysql数据导入hive从建表到导数据解决方案参考

大数据之hbase（五） --- 导出Hbase的表文件到HDFS，Hbase Bulk Load Hbase，MySQL数据通过MR导入到Hbase表中

使用kettle进行增量抽取数据

解决Kettle抽取数据到MySql后出现中文乱码问题

hbase使用MapReduce操作4（实现将 HDFS 中的数据写入到 HBase 表中）

ETL工具kettle怎么实现增量数据抽取:二时间戳

Kettle 7.1 连接HBase数据表

Kettle-开源的ETL工具集-实现SqlServer到Mysql表的数据同步并部署在Windows服务器上

Goldengate抽取ORACLE 数据到 Hbase

sqoop从oracle抽取数据到hbase

kettle下转移mongo中数据到mysql中

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

NEFU 117 素数个数的位数

Closest Common Ancestors (Lca,tarjan)

ELK部署

【转载】Hive笔记整理（三）

SQL语句（一）基本表的定义

关于Java web开发中的MySQL的事务语句

MFC创建自定义窗体

如何用一句话激怒程序员？

《逆袭大学》文摘——9.4 基础和应用的平衡中找到大学的节奏

【spring源码分析】@Value注解原理

每日归档

更多

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)