4 MapReduce 工作流程详解 - 代码天地

4 MapReduce 工作流程详解

其他 2020-04-05 13:02:02 阅读次数: 0

MapReduce 工作流程详解

一、MapTask 的工作机制

在这里插入图片描述
总体可概括为如下流程：

1、client 向集群提交任务，指定了分片个数 n

2、集群启动 n 个 maptask

3、maptask 通过 RecordReader 读取数据（k，v），v 代表一行一行的数据

4、读到数据后 mapper 对一行一行的数据进行逻辑处理

5、把处理后的数据分装成新的 (k1, v1)，通过 Context.write 发送到环形缓冲区

6、环形缓冲区把数据写入不同的分区，并且在区内针对 key 进行排序

7、当环形缓冲区达到 80% ，就把缓冲区内的数据溢出到文件，文件也是分区且区内有序

8、把之前每个分区对应的文件进行合并，新的文件也是分区且区内有序

二、ReduceTask 的工作机制

总体可概括为如下流程

1、根据分区号把 MapTask 最后合并好的文件按照分区抓取过来

2、对把抓取过来的文件合并在一起，并按照 key 排序

3、对排好序的数据进行逻辑运算生成新的 (k, v)

4、输出结果

注意：

环形缓冲区的大小会影响到 MapReduce 的执行效率，因为缓冲区越大，磁盘 io 的次数就越少，执行速度就越快。

三、Shuffle 的工作机制

在这里插入图片描述
在 MapTask 中 map 方法之后，ReduceTask 方法中 reduce 之前的操作称为 shuffle，所以 shuffle 就是 MapReduce 的核心操作了。

发布了42 篇原创文章 · 获赞 3 · 访问量 2047

私信关注

猜你喜欢

转载自blog.csdn.net/stable_zl/article/details/105133173

4 MapReduce 工作流程详解

图文详解 MapReduce 工作流程

MapReduce工作流程

mapreduce on yarn的工作流程

Mapreduce工作流程总结

MapReduce工作流程分析

Mapreduce基本工作流程

MapReduce简述、工作流程

Yarn工作原理及MapReduce工作流程

MapReduce工作流程和工作原理

MapReduce 原理之工作流程

十二、MapReduce详细工作流程

MapReduce工作流程和原理

mapreduce job在yarn上的工作流程

MapReduce工作流程超详细解释

MapReduce的详细工作流程

Yarn及MapReduce工作流程（总结版）

干货丨MapReduce的工作流程是怎样的？

MapReduce经典4幅图（数据流向图、word count过程图、shuffle工作流程图（map端、reduce端）、MapReduce原理图）

MapReduce框架原理之（二）MapReduce工作流程

MapReduce框架原理之MapReduce工作流程

Hadoop 之 MapReduce （InputFormat 和 MapReduce工作流程）

大数据入门（四）MapReduce简介以及工作流程详解

MapReduce的工作流

MapReduce（4）

MapReduce2提交到yarn上工作流程

MapReduce job提交到Yarn的工作流程

大数据笔记 3--MapReduce工作流程

案例简述MapReduce与HDFS协同工作流程

最简单、详细的MapReduce工作流程（个人整理）

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

让自己的头脑极度开放

CentOS 6.5(x64) 和Redhat6.5操作系误删libc

高可用注册中心

【日记】12.28/【题解】AtCoder AGC041

XML（5）_XML 约束_DTD

Java集合Map（四）

树梅派安装桌面环境教程

pipenv 的使用和安装

小程序白屏问题和内存研究

C语言简单选择排序

每日归档

更多

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)