B05 - 049、Shuffle机制

其他 2019-06-19 03:58:34 阅读次数: 0

0、Shuffle机制

初学耗时：0.5h

注：CSDN手机端暂不支持章节内链跳转，但外链可用，更好体验还请上电脑端。

一、Shuffle机制
1.1 阶段流程。
1.2 简单概述。
1.3 详细步骤。

记忆词：

Shuffle机制

ギ舒适区ゾ || ♂ 累觉无爱 ♀

一、Shuffle机制

1.1 ~ 阶段流程。

alt

1.2 ~ 简单概述。

map 阶段处理的数据如何传递给 reduce 阶段，是 MapReduce 框架中最关键的一个流程，这个流程就叫 shuffle。
shuffle: 洗牌、发牌——（核心机制：数据分区，排序，合并）。
shuffle 是 Mapreduce 的核心，它分布在 Mapreduce 的 map 阶段和 reduce阶段。
一般把从 Map 产生输出开始到 Reduce 取得数据作为输入之前的过程称作 shuffle。

1.3 ~ 详细步骤。

1.3.1 . Collect 阶段。

将 MapTask 的结果输出到默认大小为 100M 的环形缓冲区，
保存的是 key/value，Partition 分区信息等。

1.3.2 . Spill 阶段。

当内存中的数据量达到一定的阀值的时候，就会将数据写
入本地磁盘，在将数据写入磁盘之前需要对数据进行一次排序的操作，如果配置了 combiner，还会将有相同分区号和 key 的数据进行排序。

1.3.3 . Merge 阶段。

把所有溢出的临时文件进行一次合并操作，以确保一个
MapTask 最终只产生一个中间数据文件。

1.3.4 . Copy 阶段。

ReduceTask 启动 Fetcher 线程到已经完成 MapTask 的节点
上复制一份属于自己的数据，这些数据默认会保存在内存的缓冲区中，当内存的缓冲区达到一定的阀值的时候，就会将数据写到磁盘之上。

1.3.5 . Merge 阶段。

在 ReduceTask 远程复制数据的同时，会在后台开启两个线
程对内存到本地的数据文件进行合并操作。

1.3.6 . Sort 阶段。

在对数据进行合并的同时，会进行排序操作，由于 MapTask阶段已经对数据进行了局部的排序，ReduceTask 只需保证 Copy 的数据的最终整体有效性即可。
Shuffle 中的缓冲区大小会影响到 mapreduce 程序的执行效率，原则上说，缓冲区越大，磁盘 io 的次数越少，执行速度就越快。
缓冲区的大小可以通过参数调整, 参数：io.sort.mb 默认 100M。

莫愁前路无知己，天下谁人不识君。

- - - - - - - - - - - - - - - - - - - - - - - - - - - -

＾至此，Shuffle机制完成。

- - - - - - - - - - - - - - - - - - - - - - - - - - - -

※ 世间诱惑何其多，坚定始终不动摇。

若D₁ = {a₁，a₂，a₃}，D₂ = {1，2，3}，则D₁×D₂集合共有元组________个。

…
9

莫愁前路无知己，天下谁人不识君。

- - - - - - - - - - - - - - - - - - - - - - - - - - - -

注：CSDN手机端暂不支持章节内链跳转，但外链可用，更好体验还请上电脑端。

我知道我的不足，我也知道你的挑剔，但我就是我，不一样的烟火，谢谢你的指指点点，造就了我的点点滴滴：）！

莫愁前路无知己，天下谁人不识君。

猜你喜欢

转载自blog.csdn.net/weixin_42464054/article/details/92775771

B05 - 049、Shuffle机制

B05 - 047、MapTask工作机制

B05 - 048、ReduceTask工作机制

B05 - 051、Reducetask并行度机制

B05 - 050、MapTask并行度机制

B05 - 002、Hadoop初识

B05 - 020、大数据时代Ⅱ

B05 - 001、大数据时代Ⅰ

B05 - 005、HDFS初识

B05 - 055、Yarn介绍

B05 - 045、Mapreduce的combiner

xamarin学习笔记B05(ios的UIScrollView)

B05 - 046、MapReduce当中的计数器

B05 - 004、Hadoop基本命令初体验

B05 - 021、数据分析方法论

B05 - 003、Hadoop集群基本概念

B05 - 057、Yarn三大组件介绍

B05 - 056、Yarn基本架构

B05 - 053、MapReduce优化 - 容错相关参数

B05 - 052、MapReduce优化 - 资源相关参数

B05 - 054、MapReduce优化 - 效率跟稳定性参数

MapReduce之Shuffle机制-自定义分区-05

Shuffle机制

MapReduce 的 Shuffle 机制

[spark内核]shuffle机制

Spark Shuffle机制

maprudece的shuffle机制

spark的shuffle机制

MapReduce的Shuffle机制

shuffle机制和原理

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)