【Hadoop学习之MapReduce】_19MR工作流程 - 代码天地

【Hadoop学习之MapReduce】_19MR工作流程

其他 2020-02-10 10:41:45 阅读次数: 0

在这里插入图片描述

流程详解：

上面的流程是整个MapReduce最全工作流程，但是Shuffle过程只是从第7步开始到第16步结束，具体Shuffle过程详解，如下：

1）MapTask收集我们的map()方法输出的kv对，放到内存缓冲区中

2）从内存缓冲区不断溢出本地磁盘文件，可能会溢出多个文件

3）多个溢出文件会被合并成大的溢出文件

4）在溢出过程及合并的过程中，都要调用Partitioner进行分区和针对key进行排序

5）ReduceTask根据自己的分区号，去各个MapTask机器上取相应的结果分区数据

6）ReduceTask会取到同一个分区的来自不同MapTask的结果文件，ReduceTask会将这些文件再进行合并（归并排序）

7）合并成大文件后，Shuffle的过程也就结束了，后面进入ReduceTask的逻辑运算过程（从文件中取出一个一个的键值对Group，调用用户自定义的reduce()方法）
注意事项

Shuffle中的缓冲区大小会影响到MapReduce程序的执行效率，原则上说，缓冲区越大，磁盘io的次数越少，执行速度就越快。

缓冲区的大小可以通过参数调整，参数：io.sort.mb默认100M。

源码解析流程

context.write(k, NullWritable.get());
	output.write(key, value);
		collector.collect(key, value,partitioner.getPartition(key, value, partitions));
			HashPartitioner();
		collect()
			close()
				collect.flush()
					sortAndSpill()
						sort()  // QuickSort
					mergeParts();
				collector.close();

easy_sir

发布了30 篇原创文章 · 获赞 30 · 访问量 764

私信关注

猜你喜欢

转载自blog.csdn.net/qq_40947493/article/details/104236626

【Hadoop学习之MapReduce】_19MR工作流程

Hadoop 之 MapReduce （InputFormat 和 MapReduce工作流程）

【Hadoop】19-MapReduce的工作流

大数据技术之Hadoop之MapReduce（3）——MapReduce工作流程

大数据技术之_05_Hadoop学习_02_MapReduce_MapReduce框架原理+InputFormat数据输入+MapReduce工作流程(面试重点)+Shuffle机制(面试重点)

MapReduce 原理之工作流程

MapReduce工作流程

MapReduce框架原理之（二）MapReduce工作流程

MapReduce框架原理之MapReduce工作流程

mapreduce on yarn的工作流程

Mapreduce工作流程总结

MapReduce工作流程分析

Mapreduce基本工作流程

MapReduce简述、工作流程

【Hadoop学习之MapReduce】_13MR的优缺点

【Hadoop学习之MapReduce】_14MR的核心思想

MR详细工作流程

Hadoop-MapReduce-详细分析MapReduce工作流程，源码解析-连载中

Yarn工作原理及MapReduce工作流程

MapReduce工作流程和工作原理

hadoop 工作流程图

Apache Hadoop Yarn学习（二）：工作流程详解

三-中下, 大数据基础架构Hadoop- MapReduce框架原理和工作流程剖析

十二、MapReduce详细工作流程

MapReduce工作流程和原理

mapreduce job在yarn上的工作流程

MapReduce工作流程超详细解释

4 MapReduce 工作流程详解

MapReduce的详细工作流程

Yarn及MapReduce工作流程（总结版）

今日推荐

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

周排行

static方法和非static方法的区别（java）

如何查找计算机专业paper

java.lang.ClassFormatError: Incompatible magic value 0 in class file com/sitecha

跳跃游戏II

stm32_之【建立工程】

TeaWeb v0.0.9 发布，统计底层优化、主机监控功能改进

事件分发 -----控制字体大小

JavaScript DOM练习（动态表格添加） December 25，2019

JSF Scope & CDI

实现从零搭建一个登录注册页面（附源代码）

每日归档

更多

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)