Pentaho Kettle Loading Data into HBase

环境准备

Pentaho Kettle : 4.3.0~5.1.0
    插件:pdi-ce-5.1.0.0-752中的pentaho-big-data-plugin
    插件配置 : cdh50
Hadoop : hadoop-2.7.4
HBase : hbase-1.2.6

创建HBase表

1、打开HBase Shell

# hbase shell

2、在HBase中创建表

create 'weblogs', 'pageviews'

3、在HBase中查询表

scan 'weblogs', {LIMIT => 10}

4、关闭HBase Shell

quit

创建Transformation加载数据到HBase

1、启动Ketttle,并新建一个Transformation
2、添加【CSV输入】插件
这里写图片描述
3、配置【CSV输入】插件,如图所示:
这里写图片描述
4、添加【HBase输出】插件
这里写图片描述
5、连接【CSV输入】【HBase输出】插件,如图所示
这里写图片描述
6、配置【HBase输出】插件

Configure connection 基本配置

a、Zookeeper host(s): HBase Zookeeper Hosts 用“,”分隔的列表;
b、Zookeeper port: Zookeeper hosts 端口。HBase默认为 '2181';

如图所示:
这里写图片描述
Create/Edit mappings 配置

a、HBase table name:点击【Get table names】选择 'weblogs';
b、Mapping name:输入'pageviews';
c、点击 'Get incoming fields' 按钮;
d、修改Alias为key行的配置信息,修改Key为Y,修改'Column family' 与'Column name'为空,修改Type为'String';
e、点击 'Save mapping' 按钮;
f、Mapping name:输入'pageviews';

如图所示:
这里写图片描述
完成Configure connection 最终配置

a、HBase table name:点击'Get table names'选择 'weblogs';
b、Mapping name:点击'Get mappings for the specified table'选择 'pageviews';

如图所示:
这里写图片描述
7、保存转换

8、运行转换

查看HBase

1、打开HBase Shell

# hbase shell

2、在HBase中查询表

scan 'weblogs', {LIMIT => 10}

3、关闭HBase Shell

quit

本文附件地址:
链接: https://pan.baidu.com/s/1-1l9YyIKHT68W3iwDqbsMg 密码: 9p5h

猜你喜欢

转载自blog.csdn.net/snj1314/article/details/79472450