spark-shuffle - 代码天地

spark-shuffle

其他 2018-05-27 12:59:40 阅读次数: 0

shuffle 操作

Spark中的某些算子会触发一个名为shuffle的时间。Shuffle是spark一种重新分配数据的机制，便于不同分区之间进行分组。Shuffle都会涉及数据的序列化、磁盘IO 和网络IO，使得Shuffle成为一种复杂而昂贵的操作。

背景

为理解Shuffle过程中发生什么，举个reduceByKey的例子。reduceByKey操作生产一个新的RDD，组成一个键值对，对键值执行reduce函数，单个键对应的值往往不在同一个分区，甚至是跨节点的，但它们必须位于同一个分区才能计算出结果。

Spark中，在某些特定的操作中数据通常不会跨分区分布。在计算过程中，单个task将在单个partition中进行计算，在单个reduce task 中，需要在所有partition的组织数据，spark需要对所有partition进行操作，从中找到所有键对应的值，然后将所有partition的的值进行汇总，这个过程称为Shuffle。

Narrow（窄依赖）

一个父RDD的partition至多被子RDD的某个partition使用一次。

Wide（宽依赖）

一个父RDD的partition会被子RDD的某个partition使用多次。

猜你喜欢

转载自blog.csdn.net/qq_26369213/article/details/79967730

spark-shuffle

spark-shuffle分析

10.10 spark-shuffle,寻址

Spark--Shuffle

Spark11-shuffle

spark.shuffle调优

spark---Shuffle Write（Sort Based Shuffle)

SparkShuffle

Spark-Suffle调优

SparkShuffle之Sort Based Shuffle溢写过程分析

spark on yarn 动态资源分配报错的解决：org.apache.hadoop.yarn.exceptions.InvalidAuxServiceException: The auxService:spark_shuffle does not exist

【Spark-core学习之八】 SparkShuffle & Spark内存管理

spark调优：5、Sparkshuffle调优 //TODO

【Spark】MRShuffle 和 SparkShuffle机制和原理分析

Spark 从 0 到 1 学习(5) —— SparkShuffle详解

spark广播变量，累加器和SparkShuffle

SparkShuffle机制

大数据Spark07_SparkShell、SparkUI界面、SparkHA、SparkShuffle、Spark内存管理

Spark调优解析-sparkshuffle和程序开发优化2(七)

SparkShuffle 及性能调优

sparkshuffle调优--参数调优

Spark Shuffle

Spark的Shuffle

Spark | Shuffle

SparkShuffle的分类和执行过程的一些总结

spark shuffle详解

Spark shuffle调优

Spark shuffle 小结

Spark内存和shuffle

Spark Shuffle（ExternalSorter）

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

让自己的头脑极度开放

CentOS 6.5(x64) 和Redhat6.5操作系误删libc

高可用注册中心

【日记】12.28/【题解】AtCoder AGC041

XML（5）_XML 约束_DTD

Java集合Map（四）

树梅派安装桌面环境教程

pipenv 的使用和安装

小程序白屏问题和内存研究

C语言简单选择排序

每日归档

更多

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)