大数据技术之Hadoop之MapReduce（3）——MapReduce工作流程 - 代码天地

大数据技术之Hadoop之MapReduce（3）——MapReduce工作流程

其他 2020-03-16 10:10:20 阅读次数: 0

3.2 MapReduce工作流程

1．流程示意图：

在这里插入图片描述

2．流程详解

上面的流程是整个MapReduce最全工作流程，但是Shuffle过程只是从第7步开始到第16步结束，具体Shuffle过程详解，如下：
1）MapTask收集我们的map()方法输出的kv对，放到内存缓冲区中
2）从内存缓冲区不断溢出本地磁盘文件，可能会溢出多个文件
3）多个溢出文件会被合并成大的溢出文件
4）在溢出过程及合并的过程中，都要调用Partitioner进行分区和针对key进行排序
5）ReduceTask根据自己的分区号，去各个MapTask机器上取相应的结果分区数据
6）ReduceTask会取到同一个分区的来自不同MapTask的结果文件，ReduceTask会将这些文件再进行合并（归并排序）
7）合并成大文件后，Shuffle的过程也就结束了，后面进入ReduceTask的逻辑运算过程（从文件中取出一个一个的键值对Group，调用用户自定义的reduce()方法）

3．注意

Shuffle中的缓冲区大小会影响到MapReduce程序的执行效率，原则上说，缓冲区越大，磁盘io的次数越少，执行速度就越快。
缓冲区的大小可以通过参数调整，参数：io.sort.mb默认100M。

4．源码解析流程

context.write(k, NullWritable.get());
output.write(key, value);
collector.collect(key, value,partitioner.getPartition(key, value, partitions));
	HashPartitioner();
collect()
	close()
	collect.flush()
sortAndSpill()
	sort()   QuickSort
mergeParts();
collector.close();

张反水

发布了37 篇原创文章 · 获赞 7 · 访问量 1169

私信关注

猜你喜欢

转载自blog.csdn.net/zy13765287861/article/details/104748512

大数据技术之Hadoop之MapReduce（3）——MapReduce工作流程

大数据技术之_05_Hadoop学习_02_MapReduce_MapReduce框架原理+InputFormat数据输入+MapReduce工作流程(面试重点)+Shuffle机制(面试重点)

Hadoop 之 MapReduce （InputFormat 和 MapReduce工作流程）

大数据技术之Hadoop之MapReduce（3）——Shuffle机制

大数据技术之Hadoop之MapReduce（3）——CombineTextInputFormat

大数据技术之Hadoop之MapReduce（1）——MapReduce概述

【Hadoop学习之MapReduce】_19MR工作流程

大数据笔记 3--MapReduce工作流程

大数据技术之Hadoop_MapReduce

大数据技术之Hadoop（MapReduce）

大数据技术之Hadoop(MapReduce)

大数据技术之Hadoop之MapReduce（3）——MapReduce框架原理概念一

大数据技术之Hadoop（MapReduce）第3章 MapReduce框架原理

MapReduce 原理之工作流程

MapReduce框架原理之（二）MapReduce工作流程

MapReduce框架原理之MapReduce工作流程

三-中下, 大数据基础架构Hadoop- MapReduce框架原理和工作流程剖析

大数据技术学习笔记之Hadoop框架基础2-MapReduce编程及运行流程

大数据技术之Hadoop之MapReduce（3）——自定义InputFormat案例实操

大数据技术之Hadoop之MapReduce（3）——NLineInputFormat使用案例

大数据技术之Hadoop之MapReduce（3）——KeyValueTextInputFormat使用案例

大数据技术之Hadoop（MapReduce）第5章 Yarn

大数据技术之Hadoop（MapReduce概述）一

大数据技术之Hadoop（MapReduce）概述、序列化

大数据技术之Hadoop学习(四)——MapReduce

大数据技术之Hadoop：MapReduce与Yarn概述（六）

大数据技术之Hadoop（MapReduce）第7章 MapReduce扩展案例

大数据技术之Hadoop（MapReduce）第1章 MapReduce入门

大数据 08 Hadoop之MapReduce

MapReduce工作流程

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

让自己的头脑极度开放

CentOS 6.5(x64) 和Redhat6.5操作系误删libc

高可用注册中心

【日记】12.28/【题解】AtCoder AGC041

XML（5）_XML 约束_DTD

Java集合Map（四）

树梅派安装桌面环境教程

pipenv 的使用和安装

小程序白屏问题和内存研究

C语言简单选择排序

每日归档

更多

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)