Spark优化(七)：广播大变量 - 代码天地

Spark优化(七)：广播大变量

其他 2018-11-10 17:13:10 阅读次数: 0

广播大变量

有时在开发过程中，会遇到需要在算子函数中使用外部变量的场景（尤其是大变量，比如100M以上的大集合），那么此时就应该使用Spark的广播（Broadcast）功能来提升性能。

在算子函数中使用到外部变量时，默认情况下，Spark会将该变量复制多个副本，通过网络传输到task中，此时每个task都有一个变量副本。如果变量本身比较大的话（比如100M，甚至1G），那么大量的变量副本在网络中传输的性能开销，以及在各个节点的Executor中占用过多内存导致的频繁GC，都会极大地影响性能。

因此对于上述情况，如果使用的外部变量比较大，建议使用Spark的广播功能，对该变量进行广播。

广播后的变量，会保证每个Executor的内存中，只驻留一份变量副本，而Executor中的task执行时共享该Executor中的那份变量副本。这样的话，可以大大减少变量副本的数量，从而减少网络传输的性能开销，并减少对Executor内存的占用开销，降低GC的频率。

广播大变量的代码示例

// 以下代码在算子函数中，使用了外部的变量。

// 此时没有做任何特殊操作，每个task都会有一份list1的副本。

val list1 = ...

rdd1.map(list1...)

// 以下代码将list1封装成了Broadcast类型的广播变量。

// 在算子函数中，使用广播变量时，首先会判断当前task所在Executor内存中，是否有变量副本。

// 如果有则直接使用；如果没有则从Driver或者其他Executor节点上远程拉取一份放到本地Executor内存中。

// 每个Executor内存中，就只会驻留一份广播变量副本。

val list1 = ...

val list1Broadcast = sc.broadcast(list1)

rdd1.map(list1Broadcast...)

猜你喜欢

转载自blog.csdn.net/Winner941112/article/details/82908517

Spark优化(七)：广播大变量

Spark性能调优之广播大变量

Spark：性能调优之——在实际项目中广播大变量

企业级Spark调优解决方案（三）之广播大变量

Spark性能调优之在实际项目中广播大变量

Spark常规性能调优四：广播大变量-Kryo序列化

Spark Streaming篇4：Spark Streaming动态广播大变量并进行黑名单过滤

spark 大型项目实战(二十九): --性能调优之在实际项目中广播大变量

Spark 广播变量

Spark 广播变量 TorrentBroadcast

spark---广播变量

spark广播变量

Spark之广播变量

Spark的广播变量

【Spark-core学习之七】 Spark广播变量、累加器

spark streaming 广播变量的测试

spark中广播变量的使用

Spark RDD、广播变量简介

Spark广播变量之broadcast

spark源码分析— spark广播变量

Spark性能优化之如何使用广播变量以及Kryo序列化

spark之广播变量设计和实现

spark 广播（broadcast）变量和Accumulator

spark2.x-广播变量

Spark十累加器与广播变量

spark之广播共享变量broadcast

spark中动态广播变量的使用

spark性能调优---广播变量的使用

Spark:广播变量和累加器

Spark中广播变量知识点

今日推荐

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

周排行

static方法和非static方法的区别（java）

如何查找计算机专业paper

java.lang.ClassFormatError: Incompatible magic value 0 in class file com/sitecha

跳跃游戏II

stm32_之【建立工程】

TeaWeb v0.0.9 发布，统计底层优化、主机监控功能改进

事件分发 -----控制字体大小

JavaScript DOM练习（动态表格添加） December 25，2019

JSF Scope & CDI

实现从零搭建一个登录注册页面（附源代码）

每日归档

更多

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)