Spark中的Shuffle过程 - 代码天地

Spark中的Shuffle过程

其他 2019-05-02 16:04:48 阅读次数: 0

一、Spark中的Shuffle过程

Shuffle分为两种：Shuffle write、Shuffle read

Spark中Shuffle分为两种：HahShuffle、SortShuffle；

1、HashShuffle

磁盘小文件的个数为：M*R = 4*3 =12个

每一个buffer的大小为32k，由于产生的磁盘小文件过多，会产生一系列的问题

如：因为在写文件的时候会产生大量的写句柄，导致产生大量的临时对象，产生OM问题

在Reduce端读取小文件的时候，又会产生的大量的读句柄，浪费资源

在Reduce端读取小文件时，因为小文件数目过多，产生大量的通信操作，通信操作会根频繁，浪费资源。

针对上述问题，对HashShuffle进行了优化操作

此时一个task group共同使用一组block file，这样可以减少大量的磁盘小文件

优化方式中产生磁盘小文件的个数与Executor中Core的个数有关文件个数 = core*Reduce个数 = 2*3；

2、SortShuffle

SortShuffle分为两种：普通运行机制、ByPass运行机制

（1）普通运行机制

简单说明：

1、一个task产生的数据存储到Map或者Array中（根据使用的算子进行区分），其中内存数据的溢写机制如下：

默认为5M，当数据为5.1m时，此时内存数据会再次申请内存，大小为5.1*2-5 = 5.2m，如果还可以给其分配5.2m的内存，就不溢写，直到最后不能再给其分配资源时，进行溢写。

2、溢写的时会进行排序操作，然后分批写入磁盘文件（默认是batch=1w）

3、在写完成后，会进行文件的合并，并产生一个索引文件，利用快速查找

产生磁盘小文件的个数为：2*m；与Reduce个数无关。

（2）ByPass运行机制

减少了排序的环节

产生磁盘小文件的个数为：2*m；与Reduce个数无关。

bypass运行机制的触发：shuffle.reduce.task数量小于spark.shuffle.sort.bypassMergeThreshold参数的值。

二、Spark 调优

三、Reduce端拉取数据

猜你喜欢

转载自www.cnblogs.com/learn-bigdata/p/10802429.html

Spark中的Shuffle过程

Spark中shuffle过程的优化

Hadoop与Spark中的Shuffle过程梳理

Spark的Shuffle过程介绍

spark shuffle过程

spark的shuffle过程

Spark shuffle 过程

Spark中如何确定Shuffle过程中Reducer的数量

彻底搞懂spark的shuffle过程（shuffle write）

关于spark shuffle过程的理解

Spark的Shuffle过程介绍图

spark shuffle过程源码解析

Spark中的Spark Shuffle详解

Spark的shuffle的Shuffle read和shuffle write过程

spark学习系列——11 spark shuffle 过程

MapReduce中shuffle过程

Spark中shuffle的文件寻址

Spark-2.0原理分析-shuffle过程

MapReduce和spark的shuffle过程详解

剖析Hadoop和Spark的Shuffle过程差异

spark源码阅读--shuffle过程分析

spark shuffle过程详解，相关优化

Spark中的Spark Shuffle详解(多看几遍)

Spark中的Shuffle过程是什么？为什么它在性能上很关键？

Hadoop计算中的Shuffle过程

MapReduce中Shuffle过程整理

【Spark二七】Spark Shuffle写过程源代码代码剖析

【Spark二八Spark Shuffle读过程源代码代码剖析

转载：Spark 学习: spark 原理简述与 shuffle 过程介绍

Spark 学习: spark 原理简述与 shuffle 过程介绍（未完，待续）

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)