hadoop增加combiner器 java实现 - 代码天地

hadoop增加combiner器 java实现

其他 2018-10-20 11:40:24 阅读次数: 0

常规的MapReduce模型由mapper和reducer组成，mapper的输出按照键排序，作为reducer的输入。combiner的作用是在mapper和reducer之间增加一个中间层，举一个例子：

对于key为1950，有两个mapper，mapper1输出：

1950 10

1950 20

1950 30

mapper2输出：

1950 40

1950 50

那么reducer的输入是（1950，[10，20，30，40，50]），设置规则为选择最大值，最终输出为（1950，50）

增加combiner之后，mapper1和mapper2先将数据输入combiner选择最大值，然后combiner的输出进入reducer作为输入，即reducer的输入为（1950，[30，50]），这里combiner的逻辑和reducer的逻辑一样，都是选择最大值，因此不用为combiner单独编写一套流程，只要修改作业运行函数即可，如下：

public class MaxTemperatureWithCombiner {
    public static void main(String[] args) throws Exception {
        if (args.length != 2)
            System.exit(-1);

        Job job = new Job();
        job.setJarByClass(MaxTemperatureWithCombiner.class);
        job.setJobName("MaxTemperatureWithCombiner");

        FileInputFormat.addInputPath(job, new Path(args[0]));
        FileOutputFormat.setOutputPath(job, new Path(args[1]));

        job.setMapperClass(MaxTemperatureMapper.class);
        /* 设置combiner，这里直接复用reducer的逻辑 */
        job.setCombinerClass(MaxTemperatureReducer.class);
        job.setReducerClass(MaxTemperatureReducer.class);

        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);

        System.exit(job.waitForCompletion(true) ? 0 : 1);
    }
}

最终运行结果显然和没有combiner是一样的。combiner的使用有限制，这里是选择最大值，因此可以加combiner，但是若是求平均数，那么不能加combiner，因为对两个局部求平均之后再求平均显然无法得到正确的结果

猜你喜欢

转载自blog.csdn.net/kdb_viewer/article/details/83110652

hadoop增加combiner器 java实现

Hadoop中MapReduce 的Combiner 的实现

Hadoop map-reduce 实现K-means聚类(combiner的使用)

Hadoop之Combiner

Hadoop中 Combiner合并

Hadoop的combiner学习与自定义combiner

java实现操作Hadoop

hadoop学习；Streaming，aggregate；combiner

Hadoop深入学习：Combiner

hadoop中Combiner和Partitioner

Hadoop深入学习 Combiner

Hadoop之MapReduce的Combiner解析

hadoop案例java代码实现

java比较器实现

java 限流器实现

JAVA多态实现子类的不断增加

Combiner

Hadoop Combiner的几个调用时间点

学习Hadoop第十六课（Combiner编程）

Hadoop7days-4 combiner

Hadoop基础-Combiner使用场景介绍

java实现定时器

Java实现的拦截器

KNN分类器-Java实现

JAVA实现迭代器模式

Java实现--链表迭代器

JAVA实现计算器

java的监听器实现

Java实现比率限定器

Java validation（java验证器实现）

今日推荐

与 Apollo 共创生态：观看7周年大会的心路历程

与 Apollo 共创生态：Apollo7周年大会的心得体会，干货满满

国内各种免费AI聊天机器人(ChatGPT)推荐(上)

智能时代 | 合合信息Embedding模型荣获C-MTEB榜单第一

Ubuntu 24.04 LTS 正式“开放升级”

【送书福利-第四十四期】《深入Rust标准库》

开源日报 | Altman七宗罪；微软必应全球宕机；美国限制AI出口；淘汰VBScript；PostgreSQL 17

wlnmp 一键安装包更新 240522

ChatGPT 严重宕机，结果被造谣“遭遇俄罗斯黑客入侵”

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

周排行

通知、自定义控件颜色

山东财经大学新生赛暨天梯赛选拔赛 C Retina

C#中String类的几个方法(IndexOf、LastIndexOf、Substring)

怎么把WPS文字自动替换直引号为弯引号？

《Spring实战》-第六章:渲染视图（表达式，标签库，模板）

ubuntu11.04安装apache,php,mysql

梦里Babel知多少（一）

python 中whl文件安装

UI设计师月薪大概是多少一般能工作到多少岁

Thinkpad Fn键与Ctrl键互换【不通过BIOS】

每日归档

更多

2024-05-24(65)

2024-05-23(9)

2024-05-22(41)

2024-05-21(8)

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)