四种常见的MapReduce设计模式

使用MapReduce解决任何问题之前,我们需要考虑如何设计。并不是任何时候都需要map和reduce job。

整个MapReduce作业的阶段主要可以分为以下四种:

  • Input-Map-Reduce-Output

  • Input-Map-Output

  • Input-Multiple Maps-Reduce-Output

  • Input-Map-Combiner-Reduce-Output

下面我将一一介绍哪种场景使用哪种设计模式。

Input-Map-Reduce-Output

640?wx_fmt=png&wxfrom=5&wx_lazy=1

在这种设计模式中,我们有两个输入文件,其文件的格式都不一样,
文件一的格式是性别作为名字的前缀,比如:Ms. Shital Katkar或Mr. Krishna Katkar
文件二的格式是性别的格式是固定的,但是其位置不固定,比如 Female/Male, 0/1, F/M


640?wx_fmt=png

在MapReduce中,Combiner也被成为Reduce,其接收Map端的输出作为其输入,并且将输出的 key-value 键值对作为Reduce的输入。Combiner的使用目的是为了减少数据传入到Reduce的负载。

在MapReduce程序中,20%的工作是在Map阶段执行的,这个阶段也被成为数据的准备阶段,各阶段的工作是并行进行的。

80%的工作是在Reduce阶段执行的,这个阶段被成为计算阶段,其不是并行的。因此,次阶段一般要比Map阶段要满。为了节约时间,一些在Reduce阶段处理的工作可以在combiner阶段完成。

假设我们有5个部门(departments),我们需要计算个性别的总薪水。但是计算薪水的规则有点奇怪,比如某个性别的总薪水大于200k,那么这个性别的总薪水需要加上20k;如果某个性别的总薪水大于100k,那么这个性别的总薪水需要加上10k。如下:


640?wx_fmt=png

以上四种MapReduce模式只是最基本的,我们可以根据自己问题设计不一样的设计模式。


猜你喜欢

欢迎关注本公众号:iteblog_hadoop:

0、回复 电子书 获取 本站所有可下载的电子书

1、三种恢复 HDFS 上删除文件的方法

2、流计算框架 Flink 与 Storm 的性能对比

3、盘点2017年晋升为Apache TLP的大数据相关项目

4、干货 | Spark SQL:过去,现在以及未来

5、Apache Spark 黑名单(Blacklist)机制介绍

6、Apache Hadoop 3.0.0 GA版正式发布,可以部署到线上

7、干货 | Apache Spark最佳实践

8、NodeManager节点自身健康状态检测机制

9、[干货]大规模数据处理的演变(2003-2017)

10、Apache Flink 1.3.0正式发布及其新功能介绍

11、更多大数据文章欢迎访问https://www.iteblog.com及本公众号(iteblog_hadoop) 12、Flink中文文档:http://flink.iteblog.com
640?wx_fmt=jpeg


本博客微信小程序:

640?wx_fmt=jpeg

猜你喜欢

转载自blog.csdn.net/b6ecl1k7BS8O/article/details/79276531