【甘道夫】通过bulk load将HDFS上的数据导入HBase - 代码天地

【甘道夫】通过bulk load将HDFS上的数据导入HBase

其他 2019-04-24 14:34:50 阅读次数: 0

引言

通过bulkload将HDFS上的数据装载进HBase是常用的入门级HBase技能，下面简单记录下关键步骤。

bulkload的详细情况请参见官网文档。

过程

第一步：每台机器执行

ln -s $HBASE_HOME/conf/hbase-site.xml $HADOOP_HOME/etc/hadoop/hbase-site.xml

第二步：编辑$HADOOP_HOME/etc/hadoop/hadoop-env.sh，拷贝到所有节点

末尾添加：

export HADOOP_CLASSPATH=$HADOOP_CLASSPATH:$HBASE_HOME/lib/*:$ZOOKEEPER_HOME/zookeeper-3.4.6.jar

第三步：生成HFile文件

hadoop jar $HBASE_HOME/lib/hbase-server-0.98.6-cdh5.2.0.jar importtsv -Dimporttsv.columns=${hbase_columns} -Dimporttsv.bulk.output=${hfile_path} ${hbase_table} ${source_data_path}

注意：

${hbase_columns}顺序列出了导入HBase后的每一列，格式【列族：限定符】。列的顺序需和${source_data_path}数据中的字段顺序匹配。计划作为rowkey的字段使用HBASE_ROW_KEY，例如“HBASE_ROW_KEY,SERVICE_INFO:ID,SERVICE_INFO:RRANK,SERVICE_INFO:SERVICE_CODE”
bulkload会自动创建${hfile_path}，只需指定，无需事先创建；
${hbase_table}可以带上namespace，例如"JILIN_SME_SP_RECS:SP_T_RE_GUL_SERVICE"
${source_data_path}这里我们使用的是一个hive的外部表数据目录。

第四步：导入数据到HBase

hadoop jar $HBASE_HOME/lib/hbase-server-0.98.6-cdh5.2.0.jar completebulkload ${hfile_path} ${hbase_table}

猜你喜欢

转载自blog.csdn.net/u010967382/article/details/40788415

【甘道夫】通过bulk load将HDFS上的数据导入HBase

大数据之hbase（五） --- 导出Hbase的表文件到HDFS，Hbase Bulk Load Hbase，MySQL数据通过MR导入到Hbase表中

【甘道夫】HBase随机宕机事件处理 & JVM GC回顾

【甘道夫】HBase基本数据操作详解【完整版，绝对精品】

bulk-load装载hdfs数据到hbase小结

Spark读写HBase之使用Spark自带的API以及使用Bulk Load将大量数据导入HBase

【甘道夫】Apache Hadoop 2.5.0-cdh5.2.0 HDFS Quotas 配额控制

【甘道夫】HBase（0.96以上版本号）过滤器Filter具体解释及实例代码

【甘道夫】Eclipse+Maven搭建HBase开发环境及HBaseDAO代码演示样例

【甘道夫】新的阶段

Bulk Load－HBase数据导入最佳实践

HBase通过Replication将wal信息导入HDFS

通过sqoop将hdfs数据导入MySQL

【甘道夫】通过Mahout构建贝叶斯文本分类器案例详解

HBase数据迁移（2）- 使用bulk load 工具从TSV文件中导入数据

Hbase Bulk Load 导入CSV 的两种方式

【甘道夫】升级gcc到7.3.0

【甘道夫】Geohash基础应用By Python

【甘道夫】scikit-learn安装

【甘道夫】Java Hello World on Spark

【甘道夫】Pandas 基础知识总结

【甘道夫】CDH5.2的Maven依赖

通过Bulkload将海量数据导入到HBase的方法

HDFS 通过mapreduce 进行 HBase 导入导出

HBASE通过bulkload方式将文件导入到HBASE数据库2

oracle通过load data 将数据导入表中通过存储过程进行批量处理

【甘道夫】基于scikit-learn实现逻辑回归LogisticRegression

【甘道夫】Oozie-4.0.0-CDH5.2.0 安装部署

Hbase数据导入Hdfs

Flink通过将sql 讲 hbase 的数据导入到Mysql中

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)