Spark2.3.1 Shuffle Operations - 代码天地

Spark2.3.1 Shuffle Operations

其他 2018-07-10 16:13:31 阅读次数: 0

Shuffle是Spark重新分布数据的机制，跨分区进行数据分组，跨执行器和机器进行数据拷贝，复杂且代价高

背景

1) 以reduceByKey操作为例，把单个key的所有值reduce并生成一个新的RDD，reduce函数应用到和这个key相关的所有value上，使得完成这个操作要使用到所有分区的所有键值对

2) Spark的分区不是按照特定的操作来划分的，一个单独的reduceByKey任务在一个单独的partition执行，然后读取所有分区的所有keys和对应的values跨分区进行合并得到最终结果，这就是Shuffle

性能影响

1) Shuffle代价很大，因为涉及磁盘IO，数据序列化和网络IO，为了组织好Shuffle的数据，Spark使用tasks集合，map tasks组织数据，reduce tasks聚合数据，这里的mapreduce概念来源于Hadoop

2) map tasks结果放在内存里直到放不下，然后基于目标分区排序并写入单独文件中， reduce阶段则读取相关的排序blocks

3) shuffle操作会占用大量堆内存，内存不够时将记录溢出到磁盘上，则又会导致磁盘IO开销和更多的garbage collection

4) shuffle还会在磁盘产生大量的中间文件，直到对应的RDDs不再使用并被垃圾收集

猜你喜欢

转载自blog.csdn.net/weixin_42129080/article/details/80959295

Spark2.3.1 Shuffle Operations

Spark Shuffle operations-官网翻译

Spark2.3.1安装

Spark2.3.1 函数传递

Spark2.3.1 Quick Start

Spark2.3.1 常用Transformations和Actions

Spark2.3.1 RDD Programming Guide

spark2.3.1 安装过程

Spark Shuffle

Spark的Shuffle

Spark | Shuffle

Spark RDD Operations

Windows10/Centos7安装Spark2.3.1

spark2.3.1读取hbase运行报错的解决办法

Spark的shuffle的Shuffle read和shuffle write过程

[spark] Shuffle Read解析 (Sort Based Shuffle)

[spark] Shuffle Write解析 (Sort Based Shuffle)

MR的shuffle和Spark的shuffle之间的区别

彻底搞懂spark的shuffle过程（shuffle write）

spark---Shuffle Write（Sort Based Shuffle)

spark shuffle特点和导致shuffle的算子

MapReduce的shuffle和Spark的shuffle的之间的关系

spark shuffle详解

spark-shuffle

Spark shuffle调优

Spark shuffle 小结

Spark Shuffle（ExternalSorter）

Spark内存和shuffle

Spark--Shuffle

spark shuffle的调优

今日推荐

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

周排行

rbac——界面、权限

Apache CXF + SpringMVC 整合发布WebService

so插件化

Vue.js实战系列---图标字体制作（svg格式）

PAT乙级 1007 素数对猜想(孪生素数对) (20分) ---（C语言 + 详细注释）

被IRM保护的文档，打开失败

Calendar和Date计算日期差的小问题

win10子系统ubuntu18.4安装docker

利用Wrap Shell Script定位Android Native内存泄漏

MySQL: Transaction (Part I - Basic Concept)

每日归档

更多

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)