Spark三大核心数据结构（三）——广播变量 - 代码天地

Spark三大核心数据结构（三）——广播变量

其他 2019-02-20 22:01:04 阅读次数: 0

Spark的三大核心数据结构：RDD、累加器（只写不读）、广播变量（只读不写）

广播变量用来高效分发较大的对象。向所有工作节点发送一个较大的只读值，以供一个或多个Spark操作使用。

不用广播变量的话，转换算子和执行算子之间会有shuffle的过程；

使用广播变量的好处是避免了RDD转换和行动中的shuffle的落盘和磁盘IO，提高性能，是Spark的一种优化手段。

广播变量原理是将RDD封装成广播变量，存放在内存中；其余的RDD与这个RDD数据进行交互的时候，就是在内存中相交互，只做map操作，效率得到很大的提高。

1. 正常的RDDs的join操作

scala> val rdd1 = sc.makeRDD(Array((1,"a"),(2,"b")))
rdd1: org.apache.spark.rdd.RDD[(Int, String)] = ParallelCollectionRDD[2] at makeRDD at <console>:24

scala> val rdd2 = sc.makeRDD(Array((1,"a"),(2,"bb"),(3,"cc")))
rdd2: org.apache.spark.rdd.RDD[(Int, String)] = ParallelCollectionRDD[3] at makeRDD at <console>:24

scala> rdd1.join(rdd2).collect
res1: Array[(Int, (String, String))] = Array((1,(a,a)), (2,(b,bb)))

用时如下0.5s：

2. 使用广播变量

sc.broadcast创建广播变量，变量.value获取广播变量的值

但是由于广播变量是传入每个Worker工作节点中，所以广播变量内存不宜过大，否则会造成Worker节点的Executor内存不足

scala> val rdd2 = sc.makeRDD(Array((1,"a"),(2,"bb"),(3,"cc")))
rdd2: org.apache.spark.rdd.RDD[(Int, String)] = ParallelCollectionRDD[3] at makeRDD at <console>:24

scala> val bc = sc.broadcast(Array((1,"a"),(2,"bb")))
bc: org.apache.spark.broadcast.Broadcast[Array[(Int, String)]] = Broadcast(3)

scala> rdd2.map(item=>{bc.value;item}).collect
res2: Array[(Int, String)] = Array((1,a), (2,bb), (3,cc))

用时44ms：

相比不使用广播变量，性能得到了很大的提高。

猜你喜欢

转载自blog.csdn.net/wx1528159409/article/details/87823369

Spark三大核心数据结构（三）——广播变量

Spark三大核心数据结构——RDD的概念、血缘和持久化

Spark三大核心数据结构（二）——累加器 & 自定义累加器的使用原理

spark的三大数据结构

【NVMEM子系统】三、核心数据结构及内在关联

【转载】libevent核心数据结构

Java核心数据结构总结

比特币核心数据结构

2.5、java核心数据结构

Redis核心数据结构

Redis核心数据结构-01

Spark02——三大数据结构

Spark框架深度理解三：运行架构、核心数据集RDD

以太坊系列---Block核心数据结构

TensorFlow Python API解析：图的核心数据结构

libevent源码解析（一）核心数据结构

FFmpeg框架解析及核心数据结构

输入法核心数据结构及算法的设计

Redis进阶-核心数据结构进阶实战

mybatis核心数据结构详解——CacheKey

必备核心数据结构和算法清单

最详解的Redis核心数据结构

一 Redis核心数据结构与高性能原理

Redis核心数据结构之String（一）

Redis核心数据结构与高性能原理

OpenCV实战（2）——OpenCV核心数据结构

数据结构——三大查找

【数据结构】核心数据结构之二叉堆的原理及实现

数据结构《三》

数据结构三

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

NEFU 117 素数个数的位数

Closest Common Ancestors (Lca,tarjan)

ELK部署

【转载】Hive笔记整理（三）

SQL语句（一）基本表的定义

关于Java web开发中的MySQL的事务语句

MFC创建自定义窗体

如何用一句话激怒程序员？

《逆袭大学》文摘——9.4 基础和应用的平衡中找到大学的节奏

【spring源码分析】@Value注解原理

每日归档

更多

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)