kettle -- 连接hive读取数据导入hdfs - 代码天地

kettle -- 连接hive读取数据导入hdfs

其他 2020-04-22 12:42:39 阅读次数: 0

1.环境准备

1.进入kettle安装文件目录的data-integration\plugins\pentaho-big-data-plugin，修改plugin.properties文件

根据自己的hadoop版本添加不同的类型

2.修改完成后进入自己对应的版本进入不同的目录，我进入的是plugins\pentaho-big-data-plugin\hadoop-configurations\cdh514目录

将集群的Hadoop、Hive配置复制到该目录中
core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml、hive-site.xml 覆盖文件中的原文件

2.准备hive表

前提：开启HDFS、Yarn、HiveMetaStore、HiveServer2

开启HDFS、Yarn

开启HiveServer2

cd  /export/servers/hive-1.1.0-cdh5.14.0
nohup bin/hive --service hiveserver2  &

开启HiveMetaStore

nohup /export/servers/hive-1.1.0-cdh5.14.0/bin/hive --service metastore 2>&1 >> /var/log.log &

查看是否开启

开始准备hive数据

进入hive

//创建hive数据库
create database kettle;
use kettle;


//创建表
CREATE TABLE dept(deptno int, dname string,loc string)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\t';

CREATE TABLE emp(
empno int,
ename string,
job string,
mgr int,
hiredate string,
sal double,
comm int,
deptno int)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\t';

//加入数据
insert into dept values
(10,'accounting','NEW YORK'),
(20,'RESEARCH','DALLAS'),
(30,'SALES','CHICAGO'),
(40,'OPERATIONS','BOSTON');

insert into emp values
(7369,'SMITH','CLERK',7902,'1980-12-17',800,NULL,20),
(7499,'ALLEN','SALESMAN',7698,'1980-12-17',1600,300,30),
(7521,'WARD','SALESMAN',7698,'1980-12-17',1250,500,30),
(7566,'JONES','MANAGER',7839,'1980-12-17',2975,NULL,20);

进去kettle 准备转换

创建两个表输入

编写两个表输入

运用deptno来join合并两个表

删除无用或重复字段

添加输出步骤

设置输出连接hdfs

运行保存启动

这时候会发现报了个错！

删除hdfs上的输出文件

hdfs dfs -cat /myhive2hdfs.txt

重新运行启动spoon

查看hdfs上的输出文件

到这里，恭喜你，kettle连接hive读取数据导入hdfs已经成功

kismetG

发布了122 篇原创文章 · 获赞 213 · 访问量 19万+

私信关注

猜你喜欢

转载自blog.csdn.net/weixin_44036154/article/details/105673801

kettle -- 连接hive读取数据导入hdfs

kettle 导入 HDFS Hive读取中文乱码

kettle连接cdh——读取hdfs中的数据

kettle hive 导入数据

Kettle连接MySQL、HDFS、Hive

Kettle连接Hadoop与Hive

kettle hive 添加变量导入分区数据

配置Kettle连接大数据HDFS

kettle连接CDH的hive存取数据

KETTLE xls表格导入

kettle导入eclipse

【Kettle】kettle增量同步变动数据

kettle教程：spoon kettle数据转换示例

Kettle(读取json数据写入到hdfs系统上)

kettle连接mysql

kettle连接sqlserver

kettle-连接控件

kettle连接Oracle RAC

Kettle连接Oracle

kettle数据连接动态变化

ETL工具Kettle研究-3-MySQL数据导入HIVE

Pentaho Kettle 7.1 读取 Hive 数据到 MySql

kettle案例-kettle分库分表导入数据

Kettle增量同步数据

kettle spoon 数据同步

异构数据的同步——kettle

Kettle数据转换

kettle数据迁移

Kettle 抽取数据举例

kettle 从mongo抽取数据

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)