小记--------spark的shuffle原理分析及源码分析 - 代码天地

小记--------spark的shuffle原理分析及源码分析

其他 2020-02-21 23:34:08 阅读次数: 0

Spark shuffle操作的两个特点

第一个特点

在spark早起版本中，那个bucket缓存是很重要的，因为需要将一个ShuffleMapTask所欲偶的数据都写入内存缓存之后，才会刷新到磁盘，但是有一个问题，如果map side数据过多，那么狠容易造成内存溢出，所以spark在新版本中，优化了，默认那个内存缓存是100kb，然后写入一点数据达到了刷新到磁盘的阈值之后，就会将数据一点一点地刷新到磁盘。

这种操作的优点，是不容易发生内存溢出。缺点在于，如果内存缓存过小的话，那么可能发生过多的磁盘写io操作，所以，这里的内存缓存大小，是可以根据实际业务情况进行优化

第二点特点

与MapReduce完全不一样的是，MapReduce它必须将所有的数都写入本地磁盘文件以后，才能启动reduce操作，来拉取数据，因为MapReduce要实现默认的根据key的排序，所以要排序，肯定得写完所有数据，才能排序，然后reduce来拉取数据

但是spark不需要，spark默认情况下，是不会对数据进行排序的，因此shuffleMapTask每写入一点数据，ResultTask就可以拉取一点数据，然后在本地执行我们定义的聚合函数和算子，进行计算。

spark这种机制的好处在于，速度比MapReduce快多了，但是也有个问题，MapReduce提供的reduce是可以处理每个key对应的value上的。很方便，但是spark中，由于这种实时拉取的机制，因此提供不了，直接处理key对应的values的算子，只能通过groupByKey，先shuffle，有一个MapPartitionsRDD，然后用map算子来处理每个key对应的values,就没有MapReduce的计算模型那么方便

图解普通shuffle原理分析：

猜你喜欢

转载自www.cnblogs.com/yzqyxq/p/12343605.html

小记--------spark的shuffle原理分析及源码分析

Spark:Shuffle原理剖析与源码分析

Spark Core（十七）Spark的Shuffle原理与源码分析

Spark源码解读之Shuffle原理剖析与源码分析

spark的shuffle和原理分析

小记--------spark-worker原理分析及源码分析

Shuffle操作的原理与源码分析

小记--------spark ——AGScheduler源码分析

Spark-2.0原理分析-shuffle过程

Spark~shuffle机制和原理分析

spark源码阅读--shuffle过程分析

21、Shuffle原理剖析与源码分析

spark-shuffle分析

小记--------spark的Master主备切换机制原理分析及源码分析

小记--------spark的Master的Application注册机制源码分析及Master的注册机制原理分析

小记--------spark内核架构原理分析

spark源码阅读--shuffle读过程源码分析

内核源码分析——shuffle

spark2原理分析-RDD的shuffle简介

spark基础之shuffle机制和原理分析

spark shuffle部分分析

小记--------spark-job触发流程源码分析

MapTask阶段shuffle源码分析

Spark架构原理-Executor源码分析

Spark架构原理-Worker源码分析

Spark架构原理-Master源码分析

Spark:BlockManager原理剖析与源码分析

Spark:Task原理剖析与源码分析

Spark:Executor原理剖析与源码分析

Spark:TaskScheduler原理剖析与源码分析

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)