spark性能调优---Kryo序列化

其他 2018-12-23 15:24:03 阅读次数: 0

1.为啥要用Kryo序列化

Spark算子操作的时候如果用到外部数据的话，都会对外部数据进行序列化，Spark内部是使用Java的序列化机制，ObjectOutputStream / ObjectInputStream，对象输入输出流机制，来进行序列化这种默认序列化机制的好处在于，处理起来比较方便；也不需要我们手动去做什么事情，只是，你在算子里面使用的变量，必须是实现Serializable接口的，可序列化即可。但是缺点个人觉得默认的序列化机制的效率不高，序列化的速度比较慢；序列化以后的数据，占用的内存空间相对还是比较大。但是Spark支持使用Kryo序列化机制。Kryo序列化机制，比默认的Java序列化机制，速度要快，序列化后的数据要更小，大概是Java序列化机制的1/10。所以Kryo序列化优化以后，可以让网络传输的数据变少；在集群中耗费的内存资源大大减少。

2.Kryo序列化机制，一旦启用以后，会生效的几个地方

a、算子函数中使用到的外部变量，使用Kryo以后：优化网络传输的性能，可以优化集群中内存的占用和消耗

b、持久化RDD，优化内存的占用和消耗；持久化RDD占用的内存越少，task执行的时候，创建的对象，就不至于频繁的占满内存，频繁发生GC。

c、shuffle：可以优化网络传输的性能

3.如何使用Kryo序列化机制（摘自Spark官网）

val conf = new SparkConf().setMaster(...).setAppName(...)
conf.registerKryoClasses(Array(classOf[MyClass1], classOf[MyClass2]))
val sc = new SparkContext(conf)

为啥spark默认的序列化机制不改成Kryo序列化机制呢？难道就因为要去注册序列化的类的原因吗？

猜你喜欢

转载自blog.csdn.net/u013164612/article/details/84657245

spark性能调优---Kryo序列化

使用Kryo对Spark进行序列化，内存调优

Spark 调优之RDD持久化级别及kryo序列化性能测试

Spark常规性能调优四：广播大变量-Kryo序列化

spark 大型项目实战(三十): --性能调优之在实际项目中使用Kryo序列化

SPARK调优之序列化

Spark（十五） Spark性能调优之Kyro序列化

在Spark中使用Kryo序列化

Spark RDD 序列化（Kryo 序列化框架）

企业级Spark调优解决方案（四）之使用kryo序列化，使用fastutil，调节本地化等待时长

Spark2.x优化:高性能序列化库Kryo使用及性能测试

Kryo 序列化

kryo序列化

Spark性能优化之如何使用广播变量以及Kryo序列化

【Spark五十六】Spark Kryo序列化存储

Spark优化(八)：使用Kryo优化序列化性能

spark:使用Kryo优化序列化性能

spark 使用Kryo优化序列化性能

Spark设置Kryo序列化缓冲区大小

【Kryo序列化框架】

利用Kryo序列化库是你提升Spark性能要做的第一件事

高性能的序列化与反序列化：kryo的简单使用

高性能的序列化与反序列化：kryo的简单使用 KryoUtils

Kryo 高性能序列化和反序列化

Kryo序列化和ProroStruff序列化性能比较

【java】java原生序列化和Kryo序列化性能实例对比分析

kryo序列化与tomcat集群

dubbo中kryo序列化使用

Java序列化框架之Kryo

Kryo：快速、高效的序列化框架

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

BPM为企业带来的实际利益

好程序员web前端分享css常用属性缩写

Java文件下载（excel）

css样式的动态添加及显示和隐藏等零碎用法

axios全局配置以及拦截器

使用Logstash来实时同步MySQL和log日志数据到ES

C++获取当前时间（年月日、时分秒、毫秒）

Odoo产品分析 (四) -- 工具板块(11) -- 网站即时聊天(1)

Java环境配置正确，但是java、javac、java -version均返回“不是内部或外部命令，也不是可运行的程序或批处理文件”？

01 官网下载各种CentOS教程（超详细版）

每日归档

更多

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)