【Pyspark】udf使用入门

企业开发 2022-08-08 13:24:17 阅读次数: 0

文章目录

方法一：使用到select
方法二：使用withColumn
Reference

方法一：使用到select

以下面的将Names列的名字中的每个单词首字母改为大写字母为栗子：

spark = SparkSession.builder.appName('SparkByExamples.com').getOrCreate()

columns = ["Seqno","Name"]
data = [("1", "john jones"),
    ("2", "tracey smith"),
    ("3", "amy sanders")]

df = spark.createDataFrame(data=data,schema=columns)
df.show(truncate=False)

+-----+------------+
|Seqno|Names       |
+-----+------------+
|1    |john jones  |
|2    |tracey smith|
|3    |amy sanders |
+-----+------------+

def convertCase(str):
    resStr=""
    arr = str.split(" ")
    for x in arr:
       resStr= resStr + x[0:1].upper() + x[1:len(x)] + " "
    return resStr 


""" 将函数转为udf """
convertUDF = udf(lambda z: convertCase(z),StringType())

""" 默认返回值是 StringType()，所以上面不执行也行  """
convertUDF = udf(lambda z: convertCase(z)) 


df.select(col("Seqno"), \
    convertUDF(col("Name")).alias("Name") ) \
   .show(truncate=False)

+-----+-------------+
|Seqno|Name         |
+-----+-------------+
|1    |John Jones   |
|2    |Tracey Smith |
|3    |Amy Sanders  |
+-----+-------------+

方法二：使用withColumn

def upperCase(str):
    return str.upper()

upperCaseUDF = udf(lambda z:upperCase(z),StringType())   

df.withColumn("Cureated Name", upperCaseUDF(col("Name"))) \
  .show(truncate=False)


+-----+------------+-------------+
|Seqno|Name        |Cureated Name|
+-----+------------+-------------+
|1    |john jones  |JOHN JONES   |
|2    |tracey smith|TRACEY SMITH |
|3    |amy sanders |AMY SANDERS  |
+-----+------------+-------------+

Reference

[1] https://sparkbyexamples.com/pyspark/pyspark-udf-user-defined-function/

猜你喜欢

转载自blog.csdn.net/qq_35812205/article/details/126238669

【Pyspark】udf使用入门

pyspark @udf 循环使用变量问题

PySpark Pandas UDF

pyspark udf函数

pyspark.sql.functions.udf中使用numpy，出现Py4JJavaError错误

pyspark RDD 入门

【Python】PySpark 入门

pyspark入门---sparksql练习

pyspark sql简单入门

Pyspark基础入门3

hive udf 使用示例

hive udf使用

sparksql中UDF的使用

SparkSQL之UDF使用

hive开发UDF及使用

hive使用UDF函数

pySpark | pySpark.Dataframe使用的坑与经历

pyspark配置和使用

pycharm中使用pyspark

使用pyspark 分析日志

pyspark使用说明

pyspark使用教程（一）

pyspark使用教程（二）

阿里平台pyspark使用

PySpark API使用

pyspark搭建使用

使用PySpark处理数据

PySpark与GraphFrames的安装与使用

pyspark使用GraphFrames报错

airflow执行py文件；pyspark窗口函数、pandas_udf、udf函数；spark提交集群任务

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

NEFU 117 素数个数的位数

Closest Common Ancestors (Lca,tarjan)

ELK部署

【转载】Hive笔记整理（三）

SQL语句（一）基本表的定义

关于Java web开发中的MySQL的事务语句

MFC创建自定义窗体

如何用一句话激怒程序员？

《逆袭大学》文摘——9.4 基础和应用的平衡中找到大学的节奏

【spring源码分析】@Value注解原理

每日归档

更多

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)