基于Spark Shuffle Block的优化 - 代码天地

基于Spark Shuffle Block的优化

其他 2018-05-08 05:09:10 阅读次数: 5

org.apache.spark.storage.DiskStore

if(length<minMemoryMapBytes){

valbuf=ByteBuffer.allocate(length.toInt)

channel.position(offset)

while(buf.remaining()!=0){

if(channel.read(buf)==-1){

thrownewIOException("ReachedEOFbeforefillingbuffer\n"+

s"offset=$offset\nfile=${file.getAbsolutePath}\nbuf.remaining=${buf.remaining}")

}

}

buf.flip()

Some(buf)

}else{

Some(channel.map(MapMode.READ_ONLY,offset,length))

Spark SQL在执行聚合（即shuffle）时，默认有200个分区。

通过参数spark.sql.shuffle.partitions控制

分区数越小，ShuffleBlock的大小越大

非常大的数据量，默认的200分区数可能不够用

数据倾斜，导致少数分区的Block大小过大

=====基于SparkShuffleBlock的优化====

解决方案

在SparkSQL中，增加分区数，从而减少SparkSQL在shuffle时的Block大小

在SparkSQL中增加spark.sql.shuffle.partitions值

避免数据倾斜

在SparkRDD，设置repartiton、coalesce

rdd.repartiton()或rdd.coalesce()

如何确定分区数

经验法则：每个分区大小为128M左右

在shuffle时，当分区数大于2000和小于2000两种场景，Spark使用不同的数据结构保

存数据。

org.apache.spark.scheduler.MapStatus

defapply(loc:BlockManagerId,uncompressedSizes:Array[Long]):MapStatus={

if(uncompressedSizes.length>2000){

HighlyCompressedMapStatus(loc,uncompressedSizes)

}else{

newCompressedMapStatus(loc,uncompressedSizes)

}

}

分区数> 2000 VS 分区数<= 2000

建议：当Spark应用的分区数小于2000，但是很接近2000，将分

区数调整到比2000稍微大一点

猜你喜欢

转载自blog.csdn.net/wjl7813/article/details/79983006

基于Spark Shuffle Block的优化

Spark shuffle性能优化

Spark性能优化 - shuffle问题

spark之shuffle参数优化

Spark Shuffle在网易的优化

阿里云Spark Shuffle的优化

Spark中shuffle过程的优化

spark shuffle的部分优化参数说明

Spark性能优化：shuffle调优

Spark性能优化之shuffle调优

四、Spark性能优化：shuffle调优

spark shuffle优化-参数调优

Spark性能优化 (3) | Shuffle 调优

spark shuffle过程详解，相关优化

Spark Shuffle

Spark的Shuffle

Spark | Shuffle

Spark2.x优化：Shuffle相关参数优化

Spark Shuffle原理和Shuffle的问题解决和优化

hadoop的mapReduce和Spark的shuffle过程的详解与对比及优化

Spark性能优化指南——数据倾斜和shuffle调优

Spark优化(四)：尽量避免使用shuffle类算子

Spark性能优化篇四：shuffle调优

大数据-spark理论(2)算子，shuffle优化

spark shuffle详解

Spark shuffle调优

Spark shuffle 小结

spark-shuffle

Spark Shuffle（ExternalSorter）

Spark内存和shuffle

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)