Spark Core快速入门系列(6) | Spark序列化 - 代码天地

Spark Core快速入门系列(6) | Spark序列化

其他 2020-09-08 19:48:32 阅读次数: 0

目录

spark的序列化
关于序列化的原理
Kyro序列化（建议使用）
总结

spark的序列化

进行 Spark 进行编程的时候, 初始化工作是在 driver端完成的, 而实际的运行程序是在executor端进行的. 所以就涉及到了进程间的通讯, 数据是需要序列化的.
在这里插入图片描述
发现Task not serializable，那么怎么回事呢？
接下来有两种方法
第一种方法：可以把属性的值存入到一个局部变量，然后传递局部变量

第二种方法：继承serializable接口

关于序列化的原理

在这里插入图片描述

Kyro序列化（建议使用）

Java 的序列化比较重, 能够序列化任何的类. 比较灵活,但是相当的慢, 并且序列化后对象的体积也比较大.
Spark 出于性能的考虑, 支持另外一种序列化机制: kryo (2.0开始支持). kryo 比较快和简洁.(速度是Serializable的10倍). 想获取更好的性能应该使用 kryo 来序列化.
从2.0开始, Spark 内部已经在使用 kryo 序列化机制: 当 RDD 在 Shuffle数据的时候, 简单数据类型, 简单数据类型的数组和字符串类型已经在使用 kryo 来序列化.
有一点需要注意的是: 即使使用 kryo 序列化, 也要继承 Serializable 接口.，
如果使用case就不用写继承Serializable，因为case自带序列化
在这里插入图片描述

那我就来证实一下为啥不用写那一行
在这里插入图片描述
帮你配了！

总结

序列化：
   1.java自带的序列化
        只需要实现java的一个接口：Serializable
     好处：
        1.及其简单，不要做任何额外的工作
        2.java自带，用起来方便
     坏处
        太重
        1.序列化速度慢
        2.序列化之后的size比较大
        spark默认是使用的这种序列化

    2.hadoop没有使用java的序列化
        hadoop自定义序列化机制：...Writable

    3 支持另外一种序列化
        Kyro
        不是spark自定义写的，而且是一个第三方写的

猜你喜欢

转载自blog.csdn.net/qq_46548855/article/details/108108916

Spark Core快速入门系列(6) | Spark序列化

spark系列-4、spark序列化方案、GC对spark性能的影响

Spark Core快速入门系列(6) | RDD的依赖关系

spark 序列化

Spark序列化

spark序列化？

Spark序列化问题

spark jdbc 序列化

Spark的RDD序列化

Spark Core快速入门系列(8) | RDD 的持久化

Spark Core快速入门系列(7) | Spark Job 的划分

Spark Core快速入门系列(5) | Spark中job的划分

Spark RDD 序列化（Kryo 序列化框架）

spark未序列化问题

Spark 序列化问题全解

spark序列化及MapOutputTracker解析

Spark 中的序列化陷阱

在Spark中使用Kryo序列化

关于Spark的序列化问题

spark优化--对象序列化问题

Spark闭包与序列化

SPARK调优之序列化

Spark Core快速入门系列(3) | ＜Transformation＞转换算子

Spark Core快速入门系列(5) | RDD 中函数的传递

Spark Core快速入门系列(8) | HashPartitioner和RangePartitioner

Spark Core快速入门系列(4) | RDD的转换(transformation)

Spark Core快速入门系列(1) | 运行模式-4种

Spark Core快速入门系列(2) | Spark Core中编程模型的理解与RDD的创建

【Spark七十八】Spark Kyro序列化

【Spark五十六】Spark Kryo序列化存储

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

周排行

Python环境安装与基础语法（1）——计算机基础知识

IMU预积分

ADAS中的LDW、FCW、BSD、LCA、ACC、AEB、APA、DMS代表的含义

B站笔试两道题

skyeye arm 硬件虚拟机环境的搭建

Web前端静态页面示例

数组-合并排序数组 II-简单

springcloud之版本问题启动报错

面向对象-------------匿名对象(六)

输入URL到页面呈现中间发生了什么？

每日归档

更多

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)