Spark RDD中的数据所属类型为什么要序列化？ - 代码天地

Spark RDD中的数据所属类型为什么要序列化？

其他 2021-03-28 22:32:24 阅读次数: 0

Spark中，算子的执行都是在Executor端执行的，其他的操作都在Driver端完成（比如数据的加载），数据要从Driver端发送到Executor端，会发生跨线程或者跨节点的传输，所以要对数据所属类型做序列化操作。

如何判断是否实现了序列化？
在作业提交之前，会有一段代码：
在这里插入图片描述

val cleanF = sc.clean(f)用于进行闭包检查，之所以叫闭包检查，是因为内部函数访问了外部函数的变量，这是闭包才有的。
继续跟踪上面的代码：
在这里插入图片描述
可以看到在clean函数中，会传入checkSeriablizable=true的参数，代表检查是否序列化。

猜你喜欢

转载自blog.csdn.net/FlatTiger/article/details/115075583

Spark RDD中的数据所属类型为什么要序列化？

Spark的RDD序列化

Spark中RDD的函数传递——实现Serializable序列化

Spark RDD 序列化（Kryo 序列化框架）

spark 序列化

Spark序列化

spark序列化？

Spark学习--3、WordCount案例、RDD序列化、RDD依赖关系、RDD持久化

Spark 中的序列化陷阱

大数据为什么要选择Spark

Spark中RDD是什么？

Spark序列化问题

spark jdbc 序列化

Spark RDD :Spark API--Spark RDD

【Spark】Spark是什么

Spark RDD

[Spark]-RDD

Spark | RDD

spark==RDD

spark --RDD

spark的RDD

【Spark】RDD

【Spark】Spark中的Partitioner

Spark——RDD是什么？

spark - RDD持久化

spark RDD持久化

【SPARK】- RDD持久化

Spark的RDD持久化

【Spark】Spark二：Spark RDD初步

Spark中RDD的理解

今日推荐

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

周排行

阿里云短信服务平台注册

Windows下的字符串处理(1)

sqoop: mysql导入数据到hdfs, hive, hbase

commons.lang中常用的工具类

离线安装PostgreSQL11.6

使用PyTorch简单实现卷积神经网络模型

一文彻底搞定谱聚类

一道面试题引发的血案

One Chat for Mac(聊天工具)

TCP/IP的底层队列是如何实现的？

每日归档

更多

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)