Spark shuffle原理和详细图解 - 代码天地

Spark shuffle原理和详细图解

其他 2018-09-12 16:08:49 阅读次数: 0

版权声明：本博客都是作者10多年工作总结 https://blog.csdn.net/Peter_Changyb/article/details/82658958

shuffle 中Map任务产生的结果会根据所设置的partitioner算法填充到当前执行任务所在机器的每个桶中。

Reduce任务启动时时，会根据任务的ID，所依赖的Map任务ID以及MapStatus从远端或本地的BlockManager获取相应的数据作为输入进行处理。
Shuffle数据必须持久化磁盘，不能缓存在内存。

Hash方式：

shuffle不排序，效率高。
生成MXR个shuffle中间文件，一个分片一个文件。
产生和生成这些中间文件会产生大量的随机IO，磁盘效率低。
shuffle时需要全部数据都放在内存，对内存消耗大。
适合数据量能全部放到内存，reduce操作不需要排序的场景。

Sort方式：

shuffle需要排序。
生成M个shuffle中间数据文件，一个Map所有分片放到一个数据文件中，外加一个索引文件记录每个分片在数据文件中的偏移量。
shuffle能够借助磁盘（外部排序）处理庞大的数据集。
数据量大于内存时只能使用Sort方式，也适用于Reduce操作需要排序的场景。

猜你喜欢

转载自blog.csdn.net/Peter_Changyb/article/details/82658958

Spark shuffle原理和详细图解

spark的shuffle和原理分析

Spark 存储原理详细图解

Spark 存储原理详细图解

Spark Shuffle详细解析

spark-yarn模式和shuffle原理

Spark~shuffle机制和原理分析

详解 spark的shuffle原理

Spark Shuffle运行原理

Spark内存和shuffle

详细探究Spark的shuffle实现

Spark的Shuffle原理(一):HashShuffle

Spark Shuffle

Spark的Shuffle

Spark | Shuffle

Spark Shuffle调优原理和最佳实践

spark基础之shuffle机制和原理分析

MR的shuffle和Spark的shuffle之间的区别

spark shuffle特点和导致shuffle的算子

MapReduce的shuffle和Spark的shuffle的之间的关系

Spark Shuffle原理和Shuffle的问题解决和优化

spark原理系列-Shuffle实现原理

Spark Shuffle原理、Shuffle操作问题解决和参数调优

Spark中的Spark Shuffle详解

Spark学习之Spark Shuffle

Spark shuffle实现详细探究学习

Spark中引起Shuffle的算子详细介绍

Spark原理 | 初学Spark

spark -- Spark原理初探

Spark的shuffle的Shuffle read和shuffle write过程

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)