SPARK调优之序列化

  • 序列化是指把对象转换为字节序列的过程;而反序列化是指把字节序列恢复为对象的过程

    • 数据的持久化,通过序列化可以把数据永久地保存到硬盘上

    • 远程通信,即在网络上传送对象的字节序列

  • 在Spark中,主要有三个地方涉及序列化与反序列化

    • 在算子中使用到广播变量broadcast时,该变量会被序列化后进行网络传输

    • 自定义对象的类型作为RDD的泛型类型时,所有自定义类型对象,都会进行序列化,所以要求自定义类必须实现Serializable接口

    • 使用可序列化的持久化策略时,Spark会将RDD中的每个partition都序列化成一个大的字节数组

猜你喜欢

转载自www.cnblogs.com/xiangyuguan/p/11361619.html
今日推荐