hive和hbase整合、sqoop数据迁移工具

hive和hbase整合

总结：

hive和hbase 底层都依赖HDFS

hive和hbase他们是一对优缺点互补的组合

hive：统计分析

hbase：实时增删改查

以上可以看做 mysql的增强版，没有解决查询延时的问题

整合步骤：

1、创建了一张hbase表插入数据

2、创建一张hive表，基于这个hbase表的

第一个是hbase依赖的zookeeper的地址

第二个是hbase的数据存储在hdfs上的根目录 /hbase

第三个添加一个整合hive和hbase的jar到hive的客户端 add jar

3、在创建hive表的时候，要指定hive表和hbase表的对应关系

表名

字段的定义（HBASE中的哪些key对应到hive表的哪些列）

key rowkey

key1 cf1:name

key2 cf2:age

4、查询验证

可以利用hive从hbase表中进行查询分析

可以利用hive往hbase表中插入数据

hbase>scan 'mingxing'

hive>show tables;

desc mingxing;

insert into table mingxing values("rk007","hadoop","xinjiang");

sqoop数据迁移工具

sqoop

基础理论

1、迁移的方向，迁入迁出

2、sqoop的本质：其实就是把sqoop的命令转换成mapreduce程序，被改写了inputformat和outputformat

3、架构

RDBMS----> import hadoop

RDBMS <----- export hadoop

开发环境搭建：

hbase hive hadoop sqoop zookeeper 等各种组件的安装目录

关系型数据库的配置信息不需要写死在配置文件找中

常用的命令

import

export

list-databases

list-tables

create-hive-table

各种的常用参数的含义

sqoop import --query 'select * from myhive.student where \$CONDITIONS'

重点注意：

全量导入则不包含以下三个参数

增量导入会包含以下参数

--check-column （col）按照哪个字段指定一个标识列用于判断增量导入的数据范围

--incremental （mode）指定增量模式包含 “追加模式” append 和 “最后修改模式” lastmodified

--last-value (value) 导入的最后一个字段的值也就是标识列上次导入的上界如果标识列是最后修改时间则-last-value 为上次执行导入脚本的时间

增量导入append模式示例：—— 代表按需填入的值

Sqoop import -connect ——

-username ——

-password ——

-table ——

-num-mappers 10

-hive-import

-hive-database ——

-hive-table ——

-incremental append

-check-column ID

-last-value 3

azkaban 工作流调度引擎

azkaban:结合oozie做了一个比较

若没有这命令则需要先安装该应用

hive和hbase整合、sqoop数据迁移工具

猜你喜欢