(转)hadoop编程笔记 - 代码天地

(转)hadoop编程笔记

企业开发 2018-05-12 06:55:26 阅读次数: 1

FileInputFormat.setMinInputSplitSize(job, 2L * 1024 * 1024 * 1024);
将使得小于 2G 的输入文件不会被分割处理。如果你的输入文件中有很多都是小于2G的，并且你的Hadoop集群配置了一个split的大小是默认的64M，那么就会导致一个1点几G的文件就会被很多个map处理，从而导致输出文件数量很多。使用上面的方法设置了min input split size之后，减小输出文件数量的效果很明显。

编写WordMapper类
在工程下创建一个WordMapper 类，该类要继承Mapper< Object, Text, Text, IntWritable>抽象类，并且实现如下方法。
public void map(Object key, Text value, Context context ) throws IOException, InterruptedException
这个方法是Mapper 抽象类的核心方法，它有三个参数。
Object key：每行文件的偏移量。
Text value：每行文件的内容。
Context context：Map 端的上下文，与 OutputCollector 和 Reporter 的功能类似。

编写WordReducer 类
在工程下创建一个WordReducer 类，该类要继承Reducer<Text, IntWritable, Text, IntWritable> 抽象类，并且实现如下方法。
public void reduce (Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException
这个方法是Reducer 抽象类的核心方法，它有三个参数。
Text key：Map 端输出的 Key 值。
Iterable<IntWritable> values：Map 端输出的 Value 集合（相同 Key 的集合）。
Context context：Reduce 端的上下文，与 OutputCollector 和 Reporter 的功能类似。

猜你喜欢

转载自qq346359669.iteye.com/blog/2173479

(转)hadoop编程笔记

hadoop编程笔记

Hadoop——HDFS编程学习笔记

hadoop中使用MapReduce编程实例（转）

Hadoop 上使用C 语言编程【转】

[转帖]hadoop学习笔记：hadoop文件系统浅析 hadoop学习笔记：hadoop文件系统浅析

（转）【hadoop代码笔记】Hadoop作业提交中EagerTaskInitializationListener的作用

python核心编程笔记（转）

java并发编程实践笔记(转)

hadoop学习笔记之二：MapReduce基本编程

大数据学习笔记——Hadoop编程实战之HDFS

大数据学习笔记——Hadoop编程之SequenceFile

大数据学习笔记——Hadoop编程实战之Mapreduce

Hadoop学习笔记(3)-HDFS的Java编程方法

（转）【Hadoop代码笔记】通过JobClient对Jobtracker的调用详细了解Hadoop RPC

（转）【Hadoop代码笔记】Hadoop作业提交之JobTracker接收作业提交

（转）【Hadoop代码笔记】Hadoop作业提交之JobTracker等相关功能模块初始化

（转）【Hadoop代码笔记】Hadoop作业提交之客户端作业提交

Hadoop笔记 - Hadoop的组成

hadoop 笔记

Hadoop笔记

Hadoop中map/reduce编程中关于mapper和reducer的Format问题(转)

【转】hadoop集群部署

Hadoop的那些事儿(转)

hadoop eclipse 3（转）

hadoop eclipse 2（转）

hadoop eclipse 1（转）

hadoop学习顺序【转】

(转)关于Hadoop的shuffle

Hadoop LZO压缩【转】

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

基本数据类型封装类比较 Java源码解读(一) 8种基本类型对应的封装类型

JS实现无缝滚动上

深入解析HashMap原理（基于JDK1.8）

mysql的连接池

关于.htc

linux下的ubuntu12.04图形界面

【数论】好推不好记的扩展欧几里德

设备树详解

cscope + tags 简单设置

xml学习

每日归档

更多

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)