【Spark四十八】Spark Shuffle第二部分：Spark Shuffle概述

企业开发 2018-05-12 05:16:28 阅读次数: 2

Spark Shuffle概述

1. Spark 提供了两种Shuffle方式 hash-based和sort based。可以通过spark.shuffle.manager参数指定。在Spark1.2中，将shuffle的默认实现设置为了sort based

对于hash based shuffle，

Spark使用类似HashMap的数据结构来对 shuffle 来的数据进行 aggregate(相同的K，通过Map来aggregate)
不会对数据进行提前排序。如果用户需要经过排序的数据，那么需要自己调用类似 sortByKey() 的操作

对于sort based shuffle

sort based shuffle会对数据进行排序

对于hash based shuffle和sort based shuffle，除了是否排序上的差异之外，还有就是map端产生的文件个数。

hash based shuffle的主要问题就是产生的文件数太多。

2. 在 Spark 中，没有像Hadoop Shuffle那样明确的阶段，只有不同的 stage 和一系列的 transformation()，所以 spill, merge, aggregate 等操作需要蕴含在 transformation() 中。

3. Spark Shuffle可以分为两个阶段，Shuffle Write和Shuffle Read。map 端划分数据、持久化数据的过程称为 shuffle write，而将 reducer 读入数据、aggregate 数据的过程称为 shuffle read

4. Shuffle Write的任务

4.1 在ShuffleMapTask中对finalRDD产出的数据进行写操作。写操作会写到磁盘(而不是存放到内存中)，一方面节省内存空间，另一方面也是为了容错。这就解释了相对于内存而言，很大量的数据做shuffle的时候，不会出现内存不够的情况。

4.2 每个Partition处理完(即ShuffleMapTask执行完），需要告知MapOutputTrackerMaster它产出的数据存放在那里，以供Reducer消费。

4.3 不同的RDD算子，比如reduceByKey，会使用Map端的combine操作，将数据进行提前combine；而有些算子，如groupByKey，则不使用Map的combine操作。

4.4 对于hash based shuffle，shuffle产生的分区数据不排序，而对于sort based shuffle则会对分区数据进行排序

5. Shuffle Read的任务

5.1从MapOutputTrackerMaster上获取属于它处理的Map输出的数据，这里可能涉及fetch remote

5.2 获取到所有的Map产出的数据后，会做一个总aggregate？

猜你喜欢

转载自bit1129.iteye.com/blog/2184276

【Spark四十八】Spark Shuffle第二部分：Spark Shuffle概述

Spark Streaming 第二部分

【Spark】Spark四： Spark RDD API初步第二部分

Spark Shuffle

Spark的Shuffle

Spark | Shuffle

【Spark四十九】Spark Shuffle第四部分：Spark Hash Based Shuffle源代码流程解析

【Spark】Spark九：深入Spark RDD第二部分RDD依赖与运行时

【Spark四十二】RDD算子逻辑执行图第二部分

spark封神之路(8)-RDD算子详解第二部分

Spark(二十）Shuffle调优之原理概述

Spark2.4源码阅读1-Shuffle机制概述

spark shuffle部分分析

Spark中的Spark Shuffle详解

Spark学习之Spark Shuffle

spark shuffle详解

spark-shuffle

Spark shuffle调优

Spark shuffle 小结

Spark Shuffle（ExternalSorter）

Spark内存和shuffle

Spark--Shuffle

spark shuffle的调优

Spark的Shuffle过程介绍

Spark shuffle性能优化

spark——Shuffle模块详解

[spark内核]shuffle机制

spark的shuffle流程

Spark：shuffle实现

Spark Shuffle机制

今日推荐

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

周排行

rbac——界面、权限

Apache CXF + SpringMVC 整合发布WebService

so插件化

Vue.js实战系列---图标字体制作（svg格式）

PAT乙级 1007 素数对猜想(孪生素数对) (20分) ---（C语言 + 详细注释）

被IRM保护的文档，打开失败

Calendar和Date计算日期差的小问题

win10子系统ubuntu18.4安装docker

利用Wrap Shell Script定位Android Native内存泄漏

MySQL: Transaction (Part I - Basic Concept)

每日归档

更多

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)