spark中使用udf执行filter - 代码天地

spark中使用udf执行filter

其他 2018-05-08 23:00:00 阅读次数: 4

有时我们需要使用filter执行过滤操作，使用下面的语句则会报错：

new_user_rdd = user_rdd.filter(lambdax:begin<=datetime.strptime(x['finish_time'])<=end)

TypeError: condition should be string or Column

一个解决方法是：

from pyspark.sql.functions import udf
from pyspark.sql.types import BooleanType
from datetime import datetime

begin = datetime.strptime('2017-10-01 00:00:00', '%Y-%m-%d %H:%M:%S')
end = datetime.strptime('2017-12-31 23:59:59', '%Y-%m-%d %H:%M:%S')

new_user_rdd = new_user_rdd1.filter(udf(lambda target: begin<=datetime.strptime(target, '%Y-%m-%d %H:%M:%S')<=end, 
            BooleanType())(new_user_rdd1['finish_time']))

猜你喜欢

转载自blog.csdn.net/iqqiqqiqqiqq/article/details/78960216

spark中使用udf执行filter

在Apache Spark中使用UDF

为什么建议在Spark中使用Scala定义UDF

Spark笔记之使用UDF

Spark、Hive UDF函数使用汇总

Spark使用UDF函数之WordCount实现

Spark中UDF、UDAF、UDTF的使用

Hive & Impala中使用UDF开发

Hue中使用Hive的UDF、UDTF函数

hive中使用spark执行引擎的常用参数

Spark集群中使用spark。

【aspnetcore】在filter中使用DI

es filter中使用should

在springboot工程中使用filter

日志OLAP：在SQL中使用UDF, lambda函数使用案例

小知识整理----SPARK UD函数 udf()与udf.register()的使用

python实现Spark(Hive) SQL中UDF的使用

关于spark2.0使用UDF 这篇文章很清晰

0011-如何在Hive & Impala中使用UDF

0518-如何在Impala中使用UDF获取SessionId

如何在 Apache Flink 1.10 中使用 Python UDF?

关于在hive中使用python做UDF的总结

Fluent软件中使用udf进行模拟详细教程

airflow执行py文件；pyspark窗口函数、pandas_udf、udf函数；spark提交集群任务

Spark之UDF

Spark UDF 学习笔记

Spark SQL UDF示例

Spark - 动态注册UDF

Spark SQL UDF开发

spark streaming 中使用 spark sql

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

让自己的头脑极度开放

CentOS 6.5(x64) 和Redhat6.5操作系误删libc

高可用注册中心

【日记】12.28/【题解】AtCoder AGC041

XML（5）_XML 约束_DTD

Java集合Map（四）

树梅派安装桌面环境教程

pipenv 的使用和安装

小程序白屏问题和内存研究

C语言简单选择排序

每日归档

更多

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)