Hadoop学习四十四：某项目技术小结概述 - 代码天地

Hadoop学习四十四：某项目技术小结概述

企业开发 2018-05-11 18:01:25 阅读次数: 0

一.对源代码的改造

改造MultipleInputs：能够做到HBase文件或者HDFS文件的混合输入
改造JobControl和ControlledJob：能够做到一个Job运行完后，先执行扩展类，再运行下一个Job
改造HFileOutputFormat和PutSortReducer：有一种业务场景是新来的一批数据里包含了少量要删除的数据。改造后配合Mapper对这些删除数据的标记，PutSortReducer能发现这些数据，HFileOutputFormat将这些数据记录到某个文件（不生成HFile）
改造hadoop_datajoin-2.3.0.jar：使用PartitionerClass SortComparatorClass GroupingComparatorClass技术手段，去掉maxNumOfValuesPerGroup = 100的限制，实现迭代一组Value就实现关联。
改造RunJar：在一个没有安装Hadoop集群环境上提交作业，自己实现一个JarRunner类，做到和使用集群hadoop jar命令一样的效果。

二.使用到的工具类

Distcp：集群间HDFS文件拷贝。定制化InputFormat TextOutputFormat；无Reducer。
Snapshot：HBase克隆快照。
Export Import：集群间HBase拷贝。
Export的话使用IdentityTableMapper将Result直接输出，使用SequenceFileOutputFormat将对象序列化到指定文件。
Import的话使用SequenceFileInputFormat从指定文件读取数据；1.Mapper里将Result对象转换成Mutation对象并输出，TableOutputFormat接受到后直接写到HBase；无Reducer。2.或者是另外种借助HFileOutputFormat的处理，下篇再详说。
CopyTable：一个集群里将一个表copy成另外一个表。Mapper里将Result对象转换成Mutation对象并输出，TableOutputFormat接受到后直接写到HBase；无Reducer。

接下来有时间抽取其中几点，详细说下。

一.对源代码的改造 二.使用到的工具类

猜你喜欢

转载自zy19982004.iteye.com/blog/2166422

Hadoop学习四十四：某项目技术小结概述

技术小结

OSGI技术小结

Android技术小结

Canvas：技术小结

spring技术小结

Unity 光照技术小结

生物认证技术小结

FPGA Configuration 技术小结

Spring AOP技术小结

虚拟化技术小结

【技术小结】sql server 调用webservice

Java核心技术小结（一）

Titanic Kaggle 竞赛技术小结（二）

Titanic Kaggle 竞赛技术小结（一）

AJAX编写用户注册实例及技术小结

分布式文件系统HDFS—技术小结

windows平台视频渲染技术小结

Titanic Kaggle 竞赛技术小结（三|终）

关于5G使用的新型技术小结

使用Unity调用派样机技术小结

学习四十四

某项目总汇

**前端技术小讲**

技术小总结

密码技术小总结

BootStrap的table技术小结：数据填充、分页、列宽可拖动

计算机三级网络工程技术小结（1）

计算机三级网络工程技术小结（5）

计算机三级网络工程技术小结（4）

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)