Spark 广播变量 - 代码天地

Spark 广播变量

其他 2018-06-14 18:07:45 阅读次数: 2

广播变量用来高效分发较大的对象。向所有工作节点发送一个较大的只读值，以供一个或多个 Spark 操作使用。比如，如果你的应用需要向所有节点发送一个较大的只读查询表，甚至是机器学习算法中的一个很大的特征向量，广播变量用起来都很顺手。

传统方式下，Spark 会自动把闭包中所有引用到的变量发送到工作节点上。虽然这很方便，但也很低效。原因有二:首先，默认的任务发射机制是专门为小任务进行优化的；其次，事实上你可能会在多个并行操作中使用同一个变量，但是 Spark 会为每个任务分别发送。

scala> val broadcastVar = sc.broadcast(Array(1, 2, 3))
broadcastVar: org.apache.spark.broadcast.Broadcast[Array[Int]] = Broadcast(35)
scala> broadcastVar.value
res33: Array[Int] = Array(1, 2, 3)

使用广播变量的过程如下：
(1) 通过对一个类型 T 的对象调用 SparkContext.broadcast 创建出一个
Broadcast[T] 对象。任何可序列化的类型都可以这么实现。
(2) 通过 value 属性访问该对象的值(在 Java 中为 value() 方法)。
(3) 变量只会被发到各个节点一次，应作为只读值处理(修改这个值不会
影响到别的节点)。

猜你喜欢

转载自blog.csdn.net/liangzelei/article/details/80593633

Spark 广播变量

Spark 广播变量 TorrentBroadcast

spark---广播变量

Spark之广播变量

spark广播变量

Spark的广播变量

spark streaming 广播变量的测试

spark中广播变量的使用

Spark RDD、广播变量简介

Spark广播变量之broadcast

spark源码分析— spark广播变量

spark之广播变量设计和实现

spark 广播（broadcast）变量和Accumulator

spark2.x-广播变量

Spark十累加器与广播变量

spark之广播共享变量broadcast

Spark优化(七)：广播大变量

spark中动态广播变量的使用

spark性能调优---广播变量的使用

Spark中广播变量知识点

Spark:广播变量和累加器

Spark中的广播变量与累加器

Spark广播变量知识点

Spark - 广播变量 & 累加器

（四）spark之共享数据--广播变量

Spark广播变量和累加器

Spark性能调优之广播变量

Spark的累加器和广播变量

spark streaming动态修改广播变量

Spark广播变量的作用和使用

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

周排行

购置笔记本常识

从源码看Spring Security之采坑笔记（Spring Boot篇）

大数据学习——高可用配置案例

如何避免选择不专业的建站公司?

Euclid's Game HDU - 1525（博弈）

面试笔记（六）---Js实现eventHandler

Windows 实例搭建的 FTP 在外网无法连接和访问

设计模式 : 桥接模式

USB 设备驱动开发之几个重要结构体分析

14-p14_sqrt求平方根

每日归档

更多

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)