hive和hbase整合、sqoop数据迁移工具

hivehbase整合

总结:

hivehbase 底层都依赖HDFS

hivehbase他们是一对优缺点互补的组合

    hive:统计分析

    hbase:实时增删改查

 以上可以看做   mysql的增强版,没有解决查询延时的问题

 整合步骤:

 1、创建了一张hbase表插入数据

 2、创建一张hive表,基于这个hbase表的

    第一个是hbase依赖的zookeeper的地址

    第二个是hbase的数据存储在hdfs上的根目录  /hbase

    第三个添加一个整合hivehbasejarhive的客户端  add jar

 3、在创建hive表的时候,要指定hive表和hbase表的对应关系

    表名

    字段的定义(HBASE中的哪些key对应到hive表的哪些列)

    key   rowkey

    key1  cf1:name

    key2  cf2:age

 4、查询验证

    可以利用hivehbase表中进行查询分析

    可以利用hivehbase表中插入数据

    hbase>scan  'mingxing'

    hive>show tables;

    desc mingxing;

    insert into table mingxing values("rk007","hadoop","xinjiang");

sqoop数据迁移工具

sqoop

基础理论

1、迁移的方向,迁入迁出

2sqoop的本质:其实就是把sqoop的命令转换成mapreduce程序,被改写了inputformatoutputformat

3、架构

    RDBMS---->  import    hadoop

     RDBMS <-----   export   hadoop

开发环境搭建:

    hbase  hive hadoop sqoop zookeeper  等各种组件的安装目录

    关系型数据库的配置信息不需要写死在配置文件找中

    常用的命令

        import

        export

        list-databases

        list-tables

        create-hive-table

        各种的常用参数的含义

        sqoop import --query 'select * from myhive.student where \$CONDITIONS'

重点注意:

全量导入 则不包含以下三个参数

增量导入会包含以下参数

        --check-column   col  按照哪个字段  指定一个标识列用于判断增量导入的数据范围

        --incremental mode 指定增量模式  包含 追加模式 append 最后修改模式 lastmodified

        --last-value      (value)  导入的最后一个字段的值  也就是标识列上次导入的上界  如果标识列 是最后修改时间  -last-value 为上次执行导入脚本的时间

增量导入append模式示例:—— 代表按需填入的值

Sqoop import -connect ——

-username ——

-password ——

-table ——

-num-mappers 10

-hive-import

-hive-database ——

-hive-table ——

-incremental append

-check-column ID

 -last-value 3

 

azkaban 工作流调度引擎

    azkaban:结合oozie做了一个比较  

    若没有这命令则需要先安装该应用

猜你喜欢

转载自blog.csdn.net/weixin_40803329/article/details/80801374
今日推荐