MapReduce的Shuffle原理 - 代码天地

MapReduce的Shuffle原理

编程语言 2018-08-08 08:10:41 阅读次数: 0

MapReduce的Shuffle原理示意图

这里写图片描述

HDFS是数据存储的位置。MapReduce是基于HDFS或HBase之上的。MapReduce分为map和reduce两个过程。可以这么理解，map把数据拢过来，然后以键值对的形式发给reduce，reduce将相同的键合并，并输出。而map和reduce之间的过程就是shuffle过程。
从图中可以看出，数据都是分片的，而一个split对应一个map，map读入数据之后，将数据向环形缓冲区内写，缓冲区默认为100M，当达到阈值80%的时候，那百分之80会被锁住，不让map向内写入，map只能向那20%写入数据，而那80%已经写满的数据会向磁盘溢出。当剩余那20%被写满，而80%也没有溢出完成，那么map会被阻塞直到完成。在向磁盘溢出文件之前，数据会经历partition(分区，默认为哈希算法)，会根据reduce的数量或hadoop属性设定reduce任务数参与分区的计算。在每个分区中，数据会进行一个sort(排序)操作，是快速排序，第一关键词为分区号，第二关键词为key。
缓冲区不断向磁盘溢出，这样会产生一个一个的spill file(小文件)。这些文件会在Map任务全部结束之前，进行归并排序，合成一个已经分区排序好的大文件。map任务执行完成后，直接通知应用程序master，reduce任务会通过心跳机制定时通过RPC向应用程序master询问map任务是否完成，以便通过map输出的位置，按分区指定拖拽回自己需要的数据至本地相应磁盘上分区内。因为有多个map，所以reduce会拖拽很多数据，这些数据会两两合并，然后都被reduce接收。
这样Shuffle过程就结束了。

猜你喜欢

转载自blog.csdn.net/gjwcsdn/article/details/81431179

MapReduce的Shuffle原理

MapReduce shuffle原理

MapReduce shuffle过程原理

转：MapReduce核心Shuffle的原理

MapReduce 原理之Shuffle机制

MapReduce的shuffle工作原理讲解

MapReduce的shuffle原理---shuffle为什么要排序？

深入解析mapreduce中shuffle的工作原理

彻底理解MapReduce shuffle过程原理

Hadoop-MapReduce Shuffle原理及调优

Hadoop_MapReduce_Shuffle工作原理

MapReduce框架原理之Shuffle机制

大数据系列之MapReduce的shuffle原理

彻底理解MapReduce shuffle过程原理彻底理解MapReduce shuffle过程原理

MapReduce Shuffle

MapReduce的shuffle

hadoop-MapReduce框架原理之Shuffle机制

大数据-Hadoop生态(17)-MapReduce框架原理-MapReduce流程,Shuffle机制,Partition分区

大数据-什么是MapReduce？&&数据本地化&MapReduce原理及执行流程&&Shuffle的调优

MapReduce中shuffle过程

mapreduce之shuffle详解

MapReduce:详解Shuffle过程

mapreduce的shuffle，partition，combine

Classic MapReduce - Shuffle and Sort

MapReduce的shuffle过程

MapReduce Shuffle and Sort职责

MapReduce的Shuffle过程详解

MapReduce执行流程Shuffle

MapReduce 的 Shuffle 机制

MapReduce 的shuffle过程

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)