Map Reduce中的Shuffle大致流程 - 代码天地

Map Reduce中的Shuffle大致流程

其他 2021-01-27 09:39:15 阅读次数: 0

在mapreduce中，shuffle指把map输出转化为reduce的输入的过程

shuffle官方流程图，其中黑线部分为shuffle：
在这里插入图片描述
shuffle运行步骤：
1.map输出后会先经过一个圆形内存缓冲区，用于存储输出的键值对
（默认大小100MB，mapreduce.task.io.sort.mb调整），一旦达到阈值（默认0.8，mapreduce.task.io.sort.percent调整）一个后台线程把内容写到（spill）磁盘指定目录下（mapred.local.dir）的新建的一个溢写文件
2.执行溢出写（发生在溢写之前），进行分区（Partition），排序（Sort），合并（Combine）
3.fetch阶段，将对应分区的数据copy到相应的reduce中（默认线程数为5，mapreduce.reduce.shuffle.parallelcopies调整）
4.merge阶段，根据fetch来的数据量排序后进行循环合并
在这里插入图片描述

5.reduce输出output

对文章感兴趣？试试关注我的公众号
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/qq_43928549/article/details/105596960

Map Reduce中的Shuffle大致流程

Map Reduce Shuffle(洗牌)

MapReduce之Map,Reduce,Shuffle,Yarn的机制+流程图

Map/Reduce执行流程

Hadoop入门(9)--Map-Shuffle-Reduce

map/reduce

map reduce

map()与reduce()

MR-on-yarn&切片数和map task/reduce task关系&wordcount流程理解&shuffle

Map/Reduce中的Combiner的使用

Map/Reduce中的Partiotioner使用

Python中的map_reduce

Python中map/reduce的用法

Python 中的 Map&Reduce

map-reduce中的组件

MapReduce:详解Shuffle过程---map和reduce数据交互的关键

【Spark四十七】Hadoop Map Shuffle Reduce的过程

Hadoop之map/reduce之间的shuffle，partition，combiner过程的详解

MapReduce框架学习（2）——Map/Reduce及 Shuffle前后

简单写下提交sql-map-shuffle-reduce的过程

map/reduce之间的shuffle，partition，combiner过程的详解

大数据Map-Reduce和Shuffle的相关理解

Hadoop Map/Reduce执行流程详解

Map 中添加 Map

MapReduce经典4幅图（数据流向图、word count过程图、shuffle工作流程图（map端、reduce端）、MapReduce原理图）

Python中的map和reduce函数简介

eclipse中运行Map/Reduce程序

js 中 map , foreach , reduce 的区别

Python中map和reduce函数

关于JavaScript中map和reduce的分析

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)