Spark中RDD的函数传递——实现Serializable序列化 - 代码天地

Spark中RDD的函数传递——实现Serializable序列化

其他 2019-02-20 13:00:57 阅读次数: 0

RDD中的函数传递，例如把重复性的代码封装成方法，需要的时候直接调用即可，体现的是面向对象的思想。

原理：

初始化工作是在Driver程序中（构建SparkContext的类）进行，但是实际执行是在Worker节点中的Executor中进行的；

当Executor端执行时需要用到Driver端封装的class对象时，就需要把Driver端的对象通过序列化传输到Executor端，这个class方法需要实现Serializable序列化。

否则会报错，class没有实现序列化

Serialization stack:
- object not serializable (class: com.kevin.spark.core.Search, value: com.kevin.spark.core.Search@aa21042)

上正确代码

package com.kevin.spark.core

import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.rdd.RDD

object Spark03_Search {
    def main(args: Array[String]): Unit = {
        val conf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("Application")

        //构建Spark上下文
        val sc: SparkContext = new SparkContext(conf)

        //创建RDD
        val rdd = sc.makeRDD(Array("abc", "bcd", "cde"))
        
        //创建需要封装的Search对象
        val s = new Search("b")
        val newRDD: RDD[String] = s.getMatch1(rdd)
        newRDD.collect().foreach(println)

        //释放资源
        sc.stop()
    }
}

//构建查询类
class Search(query: String) extends Serializable {
    //包含字符串query的数据isMatch
    def isMatch(s: String) = {
        s.contains(query)
    }

    //过滤出包含字符串的RDD
    def getMatch1(rdd: RDD[String]) = {
        rdd.filter(isMatch)
    }

    //过滤出包含字符串的RDD
    def getMatch2(rdd: RDD[String]) = {
        rdd.filter(x => x.contains(query))
    }
}

打印结果：

abc
bcd

猜你喜欢

转载自blog.csdn.net/wx1528159409/article/details/87606416

Spark中RDD的函数传递——实现Serializable序列化

Spark的RDD序列化

Spark RDD 序列化（Kryo 序列化框架）

实现serializable接口序列化的作用

关于实现序列化接口Serializable

java序列化实现Serializable接口

JavaBean 实现 implements Serializable 序列化

Serializable序列化中serialVersionUId的作用

java 中序列化（Serializable）

JAVA中对象的序列化Serializable

java中Serializable序列化的理解

序列化-Serializable

序列化 serializable

Serializable 序列化

序列化Serializable

java反序列化过程中，没有实现Serializable的父类会被调用构造函数

Spark学习--3、WordCount案例、RDD序列化、RDD依赖关系、RDD持久化

什么是序列化和反序列化，在RMI中是否要实现 SERIALIZABLE 接口， SERIALVERSIONUID的用处是什么？

Spark RDD中的数据所属类型为什么要序列化？

java 序列化 Serializable

java序列化Serializable

java - 序列化 Serializable

序列化--Serializable与Parcelable

序列化Serializable的使用

对象序列化Serializable

Serializable 序列化笔记

序列化 (Serializable) 的作用

Java序列化: Serializable

Serializable序列化使用

序列化（一）Serializable

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

NEFU 117 素数个数的位数

Closest Common Ancestors (Lca,tarjan)

ELK部署

【转载】Hive笔记整理（三）

SQL语句（一）基本表的定义

关于Java web开发中的MySQL的事务语句

MFC创建自定义窗体

如何用一句话激怒程序员？

《逆袭大学》文摘——9.4 基础和应用的平衡中找到大学的节奏

【spring源码分析】@Value注解原理

每日归档

更多

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)