为什么建议在Spark中使用Scala定义UDF - 代码天地

为什么建议在Spark中使用Scala定义UDF

其他 2019-03-19 23:40:50 阅读次数: 0

版权声明：欢迎转载，注明出处即可 https://blog.csdn.net/yolohohohoho/article/details/88662805

虽然在Pyspark中，驱动程序是一个python进程，但是它创建的SparkSession对象以及其他DataFrames或者RDDs等都是利用Python封装过的 JVM对象。简单地说，虽然控制程序是Python，但它实际上是python代码告诉集群上的分布式Scala程序该做什么。数据存储在JVM的内存中，并由Scala代码进行转换。

将这些对象从JVM内存中取出并将它们转换为Python可以读取的形式（称为序列化和反序列化）的过程开销是很大的。
一般情况下，将计算结果收集回Python驱动程序通常针对低容量样本，并且不经常进行，因此这种开销相对不被注意。
但是，如果程序在集群中的对整个数据集的Python和JVM对象之间来回转换时，性能将会受到显著影响。

test

Credit: https://medium.com/wbaa/using-scala-udfs-in-pyspark-b70033dd69b9

在上图中，Python程序的指令（1）被转换为Spark执行计划，并通过SparkSession JVM对象（2）传递给集群中不同机器上的两个执行程序（3）。执行程序通常会从外部源（如HDFS）加载数据，在内存中执行某些转换，然后将数据写回外部存储。数据将在程序的生命周期内保留在JVM（3）中。

而使用Python UDF时，数据必须经过几个额外的步骤。首先，数据必须从Java（4）序列化，这样运行UDF所在的Python进程才可以将其读入（5）。然后，Python运算完的结果经过一些列序列化和反序列化然后返回到JVM。

那么我们该如何优化呢？
我们可以直接使用Scala来编写Spark UDF。
Scala UDF可以直接在执行程序的JVM中运行，因此数据将跳过两轮序列化和反序列化，处理的效率将会比使用Python UDF高的多。

总结

启动Python进程的开销不小，但是真正的开销在于将数据序列化到Python中。推荐在Spark中定义UDF时首选Scala或Java，即使UDFs是用Scala/Java编写的，不用担心，我们依然可以在python(pyspark)中使用它们。

参考资料

Using Scala UDFs in PySpark

[Book] Spark - The Definitive Guide

猜你喜欢

转载自blog.csdn.net/yolohohohoho/article/details/88662805

为什么建议在Spark中使用Scala定义UDF

在Apache Spark中使用UDF

spark中使用udf执行filter

为什么不建议在 MySQL 中使用 UTF-8？

为什么不建议在MySQL中使用 utf8？

spark摘星之路(1)--为什么使用Scala进行spark开发？

为什么不建议在 HBase 中使用过多的列族

为什么不建议在for循环中使用"+"进行字符串拼接

为什么阿里巴巴不建议在for循环中使用"+"进行字符串拼接

为什么不建议在hbase中使用过多的列簇

为什么阿里巴巴不建议在for循环中使用”+”进行字符串拼接

为什么不建议在循环体中使用+进行字符串拼接？

面试提问：为什么不建议在MySQL中使用 utf8？

scala中为什么不建议用return

Spark 自定义UDF

spark scala-实现udf函数

为什么不建议使用自定义Object作为HashMap的key？

大数据中为什么使用scala？

Mysql为什么不建议使用join

Hadoop 为什么不建议使用 RAID？

为什么不建议使用java的Hashtable

为什么建议大家使用 Linux 开发

为什么不建议使用WordPress呢？

为什么建议你使用枚举？

为什么不建议你使用SELECT *？

为什么不建议使用存储过程了

为什么不建议使用select *

Spark笔记之使用UDF

在scala中使用spark sql解决特定需求

在scala中使用spark sql解决特定需求（2）

今日推荐

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

最强开源大模型 Llama 3 上架 Gitee AI

虽然老乡鸡开源的不是代码，但背后的原因却让人很暖心

富文本编辑器 Quill 2.0 重磅发布，特性、可靠性与开发者体验大幅提升

周排行

使用Redis中间件解决商品秒杀活动中出现的超卖问题（使用Java多线程模拟高并发环境）

野指针及c++指针使用注意点

redis 3.0　新特性

(翻译)火狐操作系统javascript API

微信小程序开发入门

mysql数据查询之五子句(where、group by、having、order by和limit)

Codeforces Round #517 Div. 1翻车记

在caffe 中实现Generative Adversarial Nets（二）

企业级漏洞扫描工具

java byte数组与String互转

每日归档

更多

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)

2024-04-16(70)

2024-04-15(42)

2024-04-14(0)