Hadoop学习三十九：HBase与MapReduce集成 - 代码天地

Hadoop学习三十九：HBase与MapReduce集成

企业开发 2018-05-12 01:08:21 阅读次数: 0

一.概述

HBase与MapReduce集成时，有以下三种情形

HBase作为数据流向。
HBase作为数据源。
HBase作为数据源和数据流向。

阅读本文前，最好先了解http://zy19982004.iteye.com/blog/2068112

二.HBase作为数据流向

HBase作为数据流向时，如从Hdfs里向HBase里导入数据，可以有下列方式

map里直接调用HBase Api，往HBase插入数据。此时job.setNumReduceTasks(0)，并且job.setOutputFormatClass(NullOutputFormat.class)
使用TableOutputFormat，TableOutputFormat的RecordWriter会直接往HBase写数据。

可以在map阶段就写入。此时job.setNumReduceTasks(0)。
也可以有reduce来写入如IdentityTableReducer。

使用BulkLoad，HFileOutputFormat.configureIncrementalLoad(job, htable); 的背后job.setOutputFormatClass(HFileOutputFormat.class);

三.HBase作为数据源

HBase作为数据源，如分析HBase里的数据

自定义mapper继承TableMapper，实际以Result作为数据源，map和reduce阶段按业务逻辑来即可。

四.HBase作为数据源和数据流向

HBase作为数据源和数据流向，如将一个HBase表拆分为两个HBase表。mapper继承TableMapper，main方法里TableMapReduceUtil.initTableMapperJob后至少可以以下三种方式处理

map阶段处理好数据，调用HBase Api插入到新HBase表。此时job.setNumReduceTasks(0)，并且job.setOutputFormatClass(NullOutputFormat.class)。
map阶段处理好数据，由TableOutputFormat写入到Hbase。

可以在map阶段就写入。此时job.setNumReduceTasks(0)。
也可以有reduce来写入如IdentityTableReducer。此时需要TableMapReduceUtil.initTableReducerJob。

五.源代码

http://platform-components.googlecode.com/svn/trunk/SourceCode/study-hadoop/src/main/java/com/jyz/study/hadoop/hbase/mapreduce/ 目录下的几个java代码可以很好的说明上述任一情况。

一.概述 二.HBase作为数据流向 三.HBase作为数据源 四.HBase作为数据源和数据流向 五.源代码

猜你喜欢

转载自zy19982004.iteye.com/blog/2068217

Hadoop学习三十九：HBase与MapReduce集成

三十九、JedisCluster集成Spring

HBase：HBase与MapReduce的集成

Hadoop学习（十九）——HBase原理及方法

Hadoop MapReduce操作Hbase范例学习（TableMapReduceUtil）

HBase权威指南学习记录（五、hbase与MapReduce集成）

Mapreduce于HBase集成

HBase与MapReduce集成操作

HBase 与 MapReduce 集成

HBase集成MapReduce

HBase与MapReduce的集成

HBase(7)：hbase与MapReduce集成

Hadoop学习三十一：Win7下HBase与MapReduce集成时XXX.jar is not a valid DFS filename

前端学习（三十九） JavaScript语法（javaScript）

JavaScript学习笔记(三十九) 混合

opencv学习笔记三十九：视频读写

opengl学习之路三十九，文本渲染

【Katalon学习三十九】处理加密文本

C++学习第三十九篇

HBase和MapReduce集成(三)

"Hadoop/MapReduce/HBase"分享总结

【Spark三十九】Spark比Hadoop速度快的原因总结

HBASE和Hadoop集成

HBase(8)：hbase与MapReduce集成案例

Hadoop学习之路--运行MapReduce作业做集成测试（转）

GIS的学习（三十九）针对osmdroid的扩展之MyLocationOverlay

opencv学习(三十九)之反向投影calcBackProject()

java学习之路——第三十九天

Prometheus学习系列（三十九）之报警模板例子

JAVA学习（三十九-01）JavaWeb - Request和Response 【Request】

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)