四种常见的MapReduce设计模式 - 代码天地

四种常见的MapReduce设计模式

编程语言 2019-02-19 21:51:05 阅读次数: 0

使用MapReduce解决任何问题之前，我们需要考虑如何设计。并不是任何时候都需要map和reduce job。

整个MapReduce作业的阶段主要可以分为以下四种：

Input-Map-Reduce-Output
Input-Map-Output
Input-Multiple Maps-Reduce-Output
Input-Map-Combiner-Reduce-Output

下面我将一一介绍哪种场景使用哪种设计模式。

Input-Map-Reduce-Output

640?wx_fmt=png&wxfrom=5&wx_lazy=1

在这种设计模式中，我们有两个输入文件，其文件的格式都不一样，
文件一的格式是性别作为名字的前缀，比如：Ms. Shital Katkar或Mr. Krishna Katkar
文件二的格式是性别的格式是固定的，但是其位置不固定，比如 Female/Male, 0/1, F/M

640?wx_fmt=png

在MapReduce中，Combiner也被成为Reduce，其接收Map端的输出作为其输入，并且将输出的 key-value 键值对作为Reduce的输入。Combiner的使用目的是为了减少数据传入到Reduce的负载。

在MapReduce程序中，20%的工作是在Map阶段执行的，这个阶段也被成为数据的准备阶段，各阶段的工作是并行进行的。

80%的工作是在Reduce阶段执行的，这个阶段被成为计算阶段，其不是并行的。因此，次阶段一般要比Map阶段要满。为了节约时间，一些在Reduce阶段处理的工作可以在combiner阶段完成。

假设我们有5个部门(departments)，我们需要计算个性别的总薪水。但是计算薪水的规则有点奇怪，比如某个性别的总薪水大于200k，那么这个性别的总薪水需要加上20k；如果某个性别的总薪水大于100k，那么这个性别的总薪水需要加上10k。如下：

640?wx_fmt=png

以上四种MapReduce模式只是最基本的，我们可以根据自己问题设计不一样的设计模式。

猜你喜欢

欢迎关注本公众号：iteblog_hadoop:

0、回复 电子书 获取 本站所有可下载的电子书

1、三种恢复 HDFS 上删除文件的方法

2、流计算框架 Flink 与 Storm 的性能对比

3、盘点2017年晋升为Apache TLP的大数据相关项目

4、干货 | Spark SQL：过去，现在以及未来

5、Apache Spark 黑名单(Blacklist)机制介绍

6、Apache Hadoop 3.0.0 GA版正式发布，可以部署到线上

7、干货 | Apache Spark最佳实践

8、NodeManager节点自身健康状态检测机制

9、[干货]大规模数据处理的演变(2003-2017)

10、Apache Flink 1.3.0正式发布及其新功能介绍

11、更多大数据文章欢迎访问https://www.iteblog.com及本公众号(iteblog_hadoop) 12、Flink中文文档：http://flink.iteblog.com

本博客微信小程序：

640?wx_fmt=jpeg

猜你喜欢

转载自blog.csdn.net/b6ecl1k7BS8O/article/details/79276531

四种常见的MapReduce设计模式

java中四种最常见的设计模式

JS常见的四种设计模式

!!!!!php常见的四种运行模式（SAPI）!!!!!

php常见的四种运行模式（SAPI）

SAPI(PHP常见的四种运行模式)

四种常见的定位类型

常见的四种原型继承

四种常见的线程池

常见四种线程池

解析最常见的四种软件开发模式

PHP中PHP_SAPI常见的四种运行模式

四种单例设计模式

设计模式的四种原则

移动UI设计中需要避免的四种常见用户体验误区

四种常见的App弹窗设计：Toast、Dialog、Actionbar 和 Snackbar

电源设计中最常见的四种滤波电路原理及特点解析

Mysql常见四种索引的使用

四种常见的 POST 提交数据方式--good

SQL Update的四种常见写法

常见的四种线程池和区别

四种常见的 POST 提交数据方式

四种常见的 POST 提交数据方式（转）

四种常见链表结构的Java实现

数据库常见的四种故障

四种常见排序算法C++实现

java四种常见的线程池

Java 四种常见线程池解析

Java中四种常见的排序算法

常见四种和缓存相关的首部

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)