pyspark.sql.functions.udf中使用numpy，出现Py4JJavaError错误 - 代码天地

pyspark.sql.functions.udf中使用numpy，出现Py4JJavaError错误

其他 2021-01-22 13:46:19 阅读次数: 0

背景：pyspark，通过udf定义函数，以辅助添加新列

出错原因：udf不能返回numpy类型

举例：

df.head()

Row(artist=‘Martha Tilston’, auth=‘Logged In’, firstName=‘Colin’, gender=‘M’, userId=‘30’, hour=8)

# 切割时间，每6个小时为一组
get_6hour = udf(lambda x: np.floor(x/6),IntegerType())
df.withColumn('6hour',get_6hour(df.hour)).head()

Py4JJavaError: An error occurred while calling o2099.collectToPython.
: org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 207.0 failed 1 times, most recent failure: Lost task 0.0 in stage 207.0 (TID 9384, localhost, executor driver): net.razorvine.pickle.PickleException: expected zero arguments for construction of ClassDict (for numpy.dtype)……

正解：(将udf中的返回类型更改为int)

get_6hour = udf(lambda x: int(np.floor(x/6)),IntegerType())
df.withColumn('6hour',get_6hour(df.hour)).head()

Row(artist=‘Martha Tilston’, auth=‘Logged In’, firstName=‘Colin’, gender=‘M’, userId=‘30’, hour=8, 6hour=1)

如果你的问题解决了，欢迎点赞+关注哦~

猜你喜欢

转载自blog.csdn.net/weixin_45281949/article/details/104324158

pyspark.sql.functions.udf中使用numpy，出现Py4JJavaError错误

pyspark错误记录1: Py4JJavaError

py4j.protocol.Py4JJavaError错误

启动pyspark报错 py4j.protocol.Py4JJavaError

【pyspark】py4j.protocol.Py4JJavaError问题解决

pyspark.sql.functions

【Pyspark】udf使用入门

pyspark.sql.functions详解

日志OLAP：在SQL中使用UDF, lambda函数使用案例

为pyspark中的python安装numpy、py4j模块

pyspark @udf 循环使用变量问题

pycharm中使用pyspark

Pyspark_SQL4

py4j.protocol.Py4JJavaError: An error occurred while calling z:org.apache.spark.api.python.PythonRDD

在Apache Spark中使用UDF

遇到奇怪的问题：web.py 0.40中使用web.input()，出现一堆奇怪的错误

airflow执行py文件；pyspark窗口函数、pandas_udf、udf函数；spark提交集群任务

从0开始学pyspark（五）：pyspark-sql-functions部分学习

PySpark Pandas UDF

pyspark udf函数

PY4E exercise chapter4 Functions

spark中使用udf执行filter

Hive & Impala中使用UDF开发

Hue中使用Hive的UDF、UDTF函数

python中使用numpy包错误AttributeError: module ‘numpy‘ has no attribute ‘random‘

【错误记录】Python 中使用 PySpark 数据计算报错 ( SparkException: Python worker failed to connect back. )

weblogic中使用commons-lang 出现 NoSuchMethodError错误

mac中使用brew install opencv出现错误

myeclipse 中使用Hql编辑器出现错误

jsp中使用include命令出现500错误

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)