HBASE 导入数据(转) - 代码天地

HBASE 导入数据(转)

编程语言 2018-05-11 16:37:51 阅读次数: 0

转自：http://blog.csdn.net/dajuezhao/article/details/6365053

转自：http://blog.csdn.net/dajuezhao/article/details/6365053

一、MR生成HFile文件

[java] view plain copy

package insert.tools.hfile;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.hbase.HBaseConfiguration;

import org.apache.hadoop.hbase.KeyValue;

import org.apache.hadoop.hbase.io.ImmutableBytesWritable;

import org.apache.hadoop.hbase.mapreduce.KeyValueSortReducer;

import org.apache.hadoop.hbase.util.Bytes;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class TestHFileToHBase {

public static class TestHFileToHBaseMapper extends Mapper {

@Override

protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {

String[] values = value.toString().split("/t", 2);

byte[] row = Bytes.toBytes(values[0]);

ImmutableBytesWritable k = new ImmutableBytesWritable(row);

KeyValue kvProtocol = new KeyValue(row, "PROTOCOLID".getBytes(), "PROTOCOLID".getBytes(), values[1]

.getBytes());

context.write(k, kvProtocol);

// KeyValue kvSrcip = new KeyValue(row, "SRCIP".getBytes(),

// "SRCIP".getBytes(), values[1].getBytes());

// context.write(k, kvSrcip);

// HFileOutputFormat.getRecordWriter

}

}

public static void main(String[] args) throws IOException, InterruptedException, ClassNotFoundException {

Configuration conf = HBaseConfiguration.create();

Job job = new Job(conf, "TestHFileToHBase");

job.setJarByClass(TestHFileToHBase.class);

job.setOutputKeyClass(ImmutableBytesWritable.class);

job.setOutputValueClass(KeyValue.class);

job.setMapperClass(TestHFileToHBaseMapper.class);

job.setReducerClass(KeyValueSortReducer.class);

// job.setOutputFormatClass(org.apache.hadoop.hbase.mapreduce.HFileOutputFormat.class);

job.setOutputFormatClass(HFileOutputFormat.class);

// job.setNumReduceTasks(4);

// job.setPartitionerClass(org.apache.hadoop.hbase.mapreduce.SimpleTotalOrderPartitioner.class);

// HBaseAdmin admin = new HBaseAdmin(conf);

// HTable table = new HTable(conf, "hua");

HFileOutputFormat.configureIncrementalLoad(job, table);

FileInputFormat.addInputPath(job, new Path(args[0]));

FileOutputFormat.setOutputPath(job, new Path(args[1]));

System.exit(job.waitForCompletion(true) ? 0 : 1);

}

}

三、MR生成HFile的注意事项

1. 无论是map还是reduce作为最终的输出结果，输出的key和value的类型应该是：或者< ImmutableBytesWritable, Put>。

2. Map或者reduce的输出类型是KeyValue 或Put对应KeyValueSortReducer或PutSortReducer。

3. MR例子中job.setOutputFormatClass(HFileOutputFormat.class); HFileOutputFormat是改进后的mr，可适用于多列族同时生成HFile文件，源码中只适合一次对单列族组织成HFile文件。

4. MR例子中HFileOutputFormat.configureIncrementalLoad(job, table);自动对job进行配置，SimpleTotalOrderPartitioner是需要先对key进行整体排序，然后划分到每个reduce中，保证每一个reducer中的的key最小最大值区间范围，是不会有交集的。

因为入库到Hbase的时候，作为一个整体的Region，key是绝对有序的。

5. MR例子中最后生成HFile存储在HDFS上，输出路径下的子目录是各个列族。如果对HFile进行入库HBase，相当于move HFile到HBase的Region中，HFile子目录的列族内容没有了。

四、HFile入库到HBase

[java] view plain copy

import org.apache.hadoop.hbase.client.HTable;

import org.apache.hadoop.hbase.mapreduce.LoadIncrementalHFiles;

import org.apache.hadoop.hbase.util.Bytes;

public class TestLoadIncrementalHFileToHBase {

// private static final byte[] TABLE = Bytes.toBytes("hua");

// private static final byte[] QUALIFIER = Bytes.toBytes("PROTOCOLID");

// private static final byte[] FAMILY = Bytes.toBytes("PROTOCOLID");

public static void main(String[] args) throws IOException {

Configuration conf = HBaseConfiguration.create();

// byte[] TABLE = Bytes.toBytes("hua");

byte[] TABLE = Bytes.toBytes(args[0]);

HTable table = new HTable(TABLE);

LoadIncrementalHFiles loader = new LoadIncrementalHFiles(conf);

loader.doBulkLoad(new Path(args[1]), table);

// loader.doBulkLoad(new Path("/hua/testHFileResult/"), table);

}

}

五、HFile入库到HBase注意事项

1. 通过HBase中 LoadIncrementalHFiles的doBulkLoad方法，对生成的HFile文件入库，入库的第一个参数是表名，第二个参数是HFile的路径（以上MR生成HFile的输出路径），也可一个个列族录入到HBase中对应的表列族。

2. 如何入库的相关链接：

http://hbase.apache.org/docs/r0.89.20100726/bulk-loads.html

http://hbase.apache.org/docs/r0.20.6/api/org/apache/hadoop/hbase/mapreduce/package-summary.html#bulk

http://genius-bai.javaeye.com/blog/641927

3. 入库分为代码入库以及脚本入库。代码入库有两种，一种是

Hadoop jar hbase-VERSION.jar completebulkload /myoutput mytable；

另外一种是通过以上的TestLoadIncrementalHFileToHBase类。

脚本入库为：jruby $HBASE_HOME/bin/loadtable.rb hbase-mytable hadoop-hbase-hfile-outputdir。

猜你喜欢

转载自java12345678.iteye.com/blog/2364718

HBASE 导入数据(转)

HBASE 导入数据代码

Hbase导入数据ImportTsv

HBASE批量数据导入

HBase 数据导入 ImportTsv

Hbase数据导入Hdfs

hbase数据导入导出

向hbase导入数据

hbase 批量导入数据

hbase导入数据

HBase实战 | Hive数据导入云HBase

数据导入HBase常用方法

HBase快速导入数据--BulkLoad

Hbase项目的数据导入

HBase数据导入工具总结

【转】hbase导入工具Import介绍

hbase 通过hbase命令数据导入导出（了解）

HBase：HBase数据模型

HDFS数据导入到Hbase表

Mapreduce导入数据到HBase中

导出导入HBase数据库

HBase数据导入方法总结（续）

Hbase表数据的导入和导出

ImportTsv－HBase数据导入工具

HBase表的数据导出和导入

读取hive文件并将数据导入hbase

Phoenix批量导入数据至Hbase中

HBase数据导入导出工具

buckload 批量导入数据到HBase

importTSV工具导入数据到hbase

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)