使用kettle工具定时抽取mysql数据到hbase集群的表中（三）

为什么使用hbase

将数据抽取至hadoop中的时候，我们可以以文件的形式保存，但是在读取分析hadoop上的数据时，文件的形式是非常不方便的。Hbase是以表的形式存储数据，方便查询。

Hbase集群安装

前期准备：

1.安装模式：Hbase可以安装单机模式，伪分布式，分布式。这里我们基于之前的hadoop集群安装分布式的hbase

2.需要准备：1）搭建完成的hadoop集群环境. 2）hbase的linux压缩包.

安装：

1.在hadoop集群的master主机上，将hbase压缩包拷贝到任意路径（一般是和hadoop在一个跟路径），我的是/home/wangkang/，然后解压缩

$ tar zxvf hbase-1.3.5.tar.gz

2.在master主机上和每一台slave机器上添加环境变量，找到/etc/profile文件，

export HBASE_HOME=/home/wangkang//hbase-1.3.5

export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$HADOOP_HOME/lib:$HBASE_HOME/bin

其中HBASE_HOME是需要新加的，PATH是之前就有配的，在后面加上:$HBASE_HOME/bin即可。HBASE_HOME放在PATH前面。添加完之后需要立即使它生效

$ source /etc/profile

这种方式会立刻生效，但是如果是在centos7的图形界面的话，关闭终端在打开就会失效，需要重新启动系统之后才会永久有效。重启之前记得关机hadoop等服务。

3.在hbase的安装目录下打开/hbase-1.3.5/conf/hbase-env.sh，添加如下内容

export JAVA_HOME=/home/wangkang/jdk1.8.0_131/(jdk根目录)

export HBASE_CLASSPATH=/home/wangkang/hbase-1.3.5/conf（hbase配置目录）

export HBASE_MANAGES_ZK=true（true的意思是使用自带的zookeeper，false是单独配置自己的zookeeper）

export HBASE_HOME=/home/wangkang/hbase-1.3.5/（hbase根目录）

export HADOOP_HOME=/home/wangkang/hadoop-2.7.7（hadoop根目录）

export HBASE_LOG_DIR=/home/wangkang/hbase-1.3.5/log（日志存放地址）

4.相同目录下打开hbase-site.xml，添加如下内容

<name>hbase.rootdir</name>

<value>hdfs://master:9000/hbase</value>

</property>

<name>hbase.cluster.distributed</name>

</property>

<name>hbase.master</name>

<value>master:60000</value>

</property>

<name>hbase.zookeeper.quorum</name>

<value>master,slave1</value>

</property>

<name>hbase.zookeeper.property.dataDir</name>

<value>/home/wangkang/hbase-1.3.5/data</value>

</property>

5.相同目录下打开regionservers文件，集群中的每台计算机名

master

slave1

每个一行

5.把hbase文件从master拷贝到其他机器上

$ scp -r ./hbase-1.3.5 192.168.93.132:/home/wangkang/

至此hbase安装完毕

启动和验证

进入到hbase安装目录的bin路径下,执行

$ start-hbase.sh

1.查看进程验证

在master中jps查看进程，出现

HMster（hbase的master进程）

HQuorumPeer（zookeeper进程）

HRegionServer

在slave1中jps，查看进程，出现

HQuorumPeer（zookeeper进程）

HRegionServer（hbase的slave进程）

如果以上进程都有表示成功启动.

2.页面验证

输入如下地址，其中ip为master主机的ip地址。

http://192.168.93.131:16010/master-status

3.启动顺序

如果安装了独立的zookeeper

启动顺序: hadoop-> zookeeper-> hbase

停止顺序：hbase-> zookeeper-> hadoop

使用自带的zookeeper

启动顺序: hadoop-> hbase

停止顺序：hbase-> hadoop

使用kettle工具定时抽取mysql数据到hbase集群的表中（三）

猜你喜欢