MapReduce框架笔记——Shuffle过程详解

其他 2018-05-08 23:00:00 阅读次数: 1

0x0 背景

map-reduce是hadoop自带的计算框架，虽然现在大多数项目已经不采用该框架进行计算（Spark等基于内存的计算框架效率更高），但是他的原理还是值得进行研究的。map-reduce框架核心就是shuffle的过程，下面记录一下关于shuffle的理解。

0x1 Map端Shuffle

首先看下Hadoop权威指南中的图片
这里写图片描述

针对一个map任务，可看到以下步骤：
1. 输入数据分块作为input输入到一个map任务
2. map任务处理完成后将结果输出到内存buffer中（这是一个环形缓冲区，大小默认为100M）
3. 在将结果溢出到磁盘之前，还要做三项重要的处理：
(1)分区（默认按照reducer的个数和key的hash值进行分区）
(2)排序（对每个分区内的数据按照key进行排序）
(3)如果用户定义了combiner，执行combiner
4. 一旦buffer中数据到达阈值（默认是buffer总大小的0.8），则将buffer的数据溢出到磁盘上，每次会生成一个spill文件。
5. 最后将各个文件merge为一个文件，如果该map任务生成的spill文件超过三个，还会再执行一次combiner。

0x2 Reduce端Shuffle

依然先看图片：
这里写图片描述
从之前的map端图片可以看到，每个map生成的结果文件被分为N个分区，每个区对应一个reducer。
一旦一个map任务完成，各个reducer会将该map输出的文件中对应的分区拷贝过来，然后reducer端会有一个后台线程将这些文件merge为一个文件（如果文件数过多，往往需要merge好几轮），并且在merge的过程中会进行排序。那么reducer是如何知道什么时候去哪台节点获取自己的partition呢？原文给出答案：

How do reducers know which machines to fetch map output from?
As map tasks complete successfully, they notify their application master using the heartbeat mechanism. Therefore,
for a given job, the application master knows the mapping between map outputs and hosts. A thread in the reducer
periodically asks the master for map output hosts until it has retrieved them all.

猜你喜欢

转载自blog.csdn.net/gx304419380/article/details/79804956

MapReduce框架笔记——Shuffle过程详解

MapReduce:详解Shuffle过程

MapReduce的Shuffle过程详解

MapReduce shuffle过程详解

MapReduce详解Shuffle过程

(转)MapReduce:详解Shuffle过程

MapReduce:详解Shuffle过程（转）

MapReduce之：详解shuffle过程

Hadoop Mapreduce的shuffle过程详解

（转）MapReduce shuffle过程详解

MapReduce shuffle过程详解（二）

MapReduce:详解Shuffle(copy,sort,merge)过程

MapReduce和spark的shuffle过程详解

MapReduce内部shuffle过程详解（Combiner的使用）

HADOOP | MapReduce篇 (07) Shuffle 过程详解

MapReduce中shuffle过程

MapReduce的shuffle过程

MapReduce 的shuffle过程

*****Hadoop的Mapreduce的shuffle过程！！

MapReduce shuffle的过程分析

MapReduce shuffle过程原理

Hadoop（）MapReduce的shuffle过程

MapReduce的Shuffle 过程

简述Mapreduce的Shuffle过程

大数据计算框架——MapReduce（内含详细的shuffle过程）

mapreduce之shuffle详解

mapreduce和shuffle详解

MapReduce:详解Shuffle过程---map和reduce数据交互的关键

Hadoop深入学习：MapReduce的Shuffle过程详解

（转载）MapReduce shuffle过程剖详解及参数配置调优

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

BPM为企业带来的实际利益

好程序员web前端分享css常用属性缩写

Java文件下载（excel）

css样式的动态添加及显示和隐藏等零碎用法

axios全局配置以及拦截器

使用Logstash来实时同步MySQL和log日志数据到ES

C++获取当前时间（年月日、时分秒、毫秒）

Odoo产品分析 (四) -- 工具板块(11) -- 网站即时聊天(1)

Java环境配置正确，但是java、javac、java -version均返回“不是内部或外部命令，也不是可运行的程序或批处理文件”？

01 官网下载各种CentOS教程（超详细版）

每日归档

更多

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)