MapReducer中的自定义Combiner - 代码天地

MapReducer中的自定义Combiner

其他 2020-03-10 10:28:46 阅读次数: 0

转载于
https://www.cnblogs.com/edisonchou/p/4297786.html

Combiner合并

Combiner是MR程序中Mapper和Reducer之外的一种组件
Combiner组件的父类就是Reducer
Combiner和Reducer的区别在于运行的位置
Combiner是在每个MapTask节点上运行
Reducer是接收所有Map的输出
Combiner的意义是对每个MapTask的输出进行单个节点的局部汇总，减少网络IO
Combiner 使用的前提是不影响最终的业务逻辑。比如：求平均…

在这里插入图片描述
每一个map都可能会产生大量的本地输出，Combiner的作用就是对map端的输出先做一次合并，以减少在map和reduce节点之间的数据传输量，以提高网络IO性能，是MapReduce的一种优化手段之一，其具体的作用如下所述。

（1）Combiner最基本是实现本地key的聚合，对map输出的key排序，value进行迭代。如下所示：

map: (K1, V1) → list(K2, V2) 　　
combine: (K2, list(V2)) → list(K2, V2)
reduce: (K2, list(V2)) → list(K3, V3)

（2）Combiner还有本地reduce功能（其本质上就是一个reduce），例如Hadoop自带的wordcount的例子和找出value的最大值的程序，combiner和reduce完全一致，如下所示：

map: (K1, V1) → list(K2, V2) 　　
combine: (K2, list(V2)) → list(K3, V3)
reduce: (K3, list(V3)) → list(K4, V4)

Combiner实现的两种方法

1. 使用已有的Reducer作为Combiner

 job.setCombinerClass(WordcountReducer.class);

2. 使用自定义的Combiner

自定义Combiner实现步骤

自定义一个Combiner继承Reducer，重写Reduce方法

public class WordcountCombiner extends Reducer<Text, IntWritable, Text,IntWritable>{

	@Override
	protected void reduce(Text key, Iterable<IntWritable> values,Context context) throws IOException, InterruptedException {

        // 1 汇总操作
		int count = 0;
		for(IntWritable v :values){
			count += v.get();
		}

        // 2 写出
		context.write(key, new IntWritable(count));
	}
}

在Job驱动类中设置：

    job.setCombinerClass(WordcountCombiner.class);

WANGMCHAO

发布了24 篇原创文章 · 获赞 27 · 访问量 6945

私信关注

猜你喜欢

转载自blog.csdn.net/qq_39261894/article/details/104547924

MapReducer中的自定义Combiner

MapReducer中自定义OutputFormat

MapReducer中自定义Partitioner

MapReduce中自定义Combiner

MapReducer自定义OutPutFormat

Hadoop的combiner学习与自定义combiner

MapReduce中的combiner类详解及自定义combiner类（转）

MapReduce之自定义Combiner

MapReducer的map和reducer的几种写法模板以及自定义数据类型

大数据（十一）：Shuffle机制（Combiner合并、辅助排序(分组)GroupingComparator）与小文件处理实战（自定义InputFormat）

js中对象的自定义排序

Android中自定义checkbox样式

flume中自定义sink InterCeptor

JAVA中的异常——自定义异常

WPF中的自定义控件实例

hive中自定义RegexSerDe尝试

springboot中添加自定义filter

STL中自定义排序的使用

在自定义的SurfaceView中绘制内容

EventBus在自定义View中的使用

在Nginx中记录自定义Header

Android中的Button自定义效果

spring mvc 中自定义HttpMessageConverter

Android中自定义Menu

storm中添加自定义metrics

在自定义的View中绘制内容

Android中自定义属性的使用

【转载】Jsp中的自定义标签

android中如何自定义attributes

java中自定义标签

今日推荐

手把手教你用 LangChain 实现大模型 Agent

外星人入侵（python）

超全的免费chatGPT列表【建议收藏】

52.2k star! 自己部署gpt4free, 免费使用各种GPT

2024年（第十届）全国大学生统计建模大赛优秀论文解析——中国经济发展与碳排放库兹涅茨曲线的验证研究

【自动驾驶技术】自动驾驶汽车AI芯片汇总——NVIDIA篇

7个免费的ChatGPT网站，给大家送上

Angular v18 正式发布！

【VMware】 vCenter Converter standalone 6.6.0正式版下载

开源日报 | Angular v18；大模型价格战下的推理优化；Mistral AI以开源模型瞄准美国市场；硅谷有自己的鲁迅

数学建模Matlab之数据预处理方法

充电桩---ISO15118协议详细介绍

周排行

慧测学习课件

Mscordacwks.dll/SOS.dll 调试归档

关于深度学习人工智能模型的探讨（二）（7）

Stop Using the text-indent:-9999px

Least Common Multiple（HDU - 1019 ）

Comparator接口的使用方法--例子

修改framework Camera的API,旋转摄像头

机器学习时代的“大数据+”：数据平台的设计与搭建

vue 项目部署到nginx

webstorm 常用插件集合

每日归档

更多

2024-05-29(65)

2024-05-28(2)

2024-05-27(56)

2024-05-26(6)

2024-05-25(68)

2024-05-24(65)

2024-05-23(9)

2024-05-22(41)

2024-05-21(8)

2024-05-20(36)