MapReduce工作原理图详解 - 代码天地

MapReduce工作原理图详解

其他 2021-01-25 10:27:16 阅读次数: 0

MapReducer工作原理图详解

一个刚开始学习大数据的小白，愿意和大家分享所学所得。

下面这幅图是我一笔一画制作的，每一步都有标记，详细介绍了MapReducer工作原理。
在这里插入图片描述

具体的Shuffle流程如下：

1）MapTask收集我们的map()方法输出的kv对，放到内存缓冲区中
2）从内存缓冲区不断溢出本地磁盘文件，可能会溢出多个文件
3）多个溢出文件会被合并成大的溢出文件
4）在溢出过程及合并的过程中，都要调用Partitioner进行分区和针对key进行排序
5）ReduceTask根据自己的分区号，去各个MapTask机器上取相应的结果分区数据
6）ReduceTask会取到同一个分区的来自不同MapTask的结果文件，ReduceTask会将这些文件再进行合并（归并排序）
7）合并成大文件后，Shuffle的过程也就结束了，后面进入ReduceTask的逻辑运算过程（从文件中取出一个一个的键值对Group，调用用户自定义的reduce()方法）

注意

1）Shuffle中的缓冲区大小会影响到MapReduce程序的执行效率，原则上说，缓冲区越大，磁盘io的次数越少，执行速度就越快。
2）缓冲区的大小可以通过参数调整，参数：io.sort.mb默认100M。

谢谢观看，若有问题恳请指出。
上一篇：HDFS常见API操作 https://blog.csdn.net/qq_40169189/article/details/105546278

猜你喜欢

转载自blog.csdn.net/qq_40169189/article/details/105561295

MapReduce工作原理图详解

MapReduce工作原理图文详解(转)

MapReduce工作原理图文详解

MapReduce工作原理图文

MOS管工作动画原理图详解

SpringMVC的工作原理图：

SpringMVC的工作原理图

MapReduce工作原理详解

MapReduce经典4幅图（数据流向图、word count过程图、shuffle工作流程图（map端、reduce端）、MapReduce原理图）

struts2 工作原理图

【springmvc-工作原理图】

【转】SpringMVC的工作原理图

Hadoop工作原理图-WordCount示例

Mysql 工作原理图(转载)

scrapy 原理图及工作流程

volatile关键字工作原理图

vuex 是什么? vuex 工作原理图

LVS-DR工作原理图文详解

CAS原理图

springCloud原理图

原理图Checklist

elm原理图

RNN原理图

RabbitMQ原理图

orCAD原理图

springCloud 原理图

mvc原理图

蓝桥杯基础教程之原理图详解

Spark原理及原理图

Spring MVC 原理图

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

SVN服务端安装在阿里云

实战 | 相机标定

webpack核心概念

note20——》只要肯低头吃苦，人生就会有救

PAT甲级 1062 Talent and Virtue （25 分）排序

NG Toolset开发笔记--5GNR Resource Grid（26）

如何对待上司

oracle命令

第9章 STL迭代器

logstash使用es映射模板

每日归档

更多

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)