【Kryo序列化框架】

Java的序列化能够序列化任何的类。但是比较重,序列化后对象的体积也比较大。
Spark出于性能的考虑,Spark2.0开始支持另外一种Kryo序列化机制。Kryo速度是Serializable的10倍。当RDD在Shuffle数据的时候,简单数据类型、数组和字符串类型已经在Spark内部使用Kryo来序列化。
代码实现:

public class Test02_kryo {
    
    
    public static void main(String[] args) throws ClassNotFoundException {
    
    
        //1. 创建spark配置
        SparkConf conf = new SparkConf().setAppName("SparkCore").setMaster("local[*]")
                .set("spark.serializer","org.apache.spark.serializer.KryoSerializer")
                .registerKryoClasses(new Class[]{
    
    Class.forName("com.atguigu.sparkcore.e_serialize.bean.User")});
        //2.创建SparkContext
        JavaSparkContext sc = new JavaSparkContext(conf);
        //3.编写代码
        JavaRDD<String> javaRDD = sc.textFile("input/user.txt");
        javaRDD
                .map(line -> {
    
    
                    String[] split = line.split(" ");
                    return new User(
                            Integer.parseInt(split[0]),
                            split[1],
                            Integer.parseInt(split[2])
                    );
                })
                .collect().forEach(System.out::println);

        //4.关闭资源
        sc.stop();
    }
}

猜你喜欢

转载自blog.csdn.net/Tonystark_lz/article/details/127177103