Spark实战(4) DataFrame基础之数据筛选

编程语言 2018-11-03 15:51:34 阅读次数: 0

文章目录

filter写法一
filter写法二
条件符号
获取结果

filter写法一

from pyspark.sql import SparkSession

spark = SparkSession.builder.appName('ops').getOrCreate()

df = spark.read.csv('appe_stock.csv',inferSchema = True, header = True)

df.printSchema()

df.show()

# The first way

df.filter("Close < 500").show() # 传入一个条件

df.filter("Close < 500").select('Open').show()

df.filter("Close < 500").select(['Open','Close']).show()

filter写法二

from pyspark.sql import SparkSession

spark = SparkSession.builder.appName('ops').getOrCreate()

df = spark.read.csv('appe_stock.csv',inferSchema = True, header = True)

df.printSchema()

df.show()

# The second way

df.filter(df['Close'] < 500).select('Volume').show()
df.filter(df['Close'] < 200 and df['Open'] > 200).show() # wrong
df.filter((df['Close'] < 200) & (df['Open'] > 200)).show() # right

条件符号

# not operation
df.filter((df['Close'] < 200) & ~(df['Open'] > 200)).show() # right

# equal operation
df.filter(df['Low'] == 197.16).show()

获取结果

# if we want to save it, we could use collect()
result  = df.filter(df['Low'] == 197.16).collect()

# one row as many format
result[0].asDict()

# and then you could get specific attribute
result[0].asDict()['Volume']

猜你喜欢

转载自blog.csdn.net/ZenG_xiangt/article/details/83588965

Spark实战(4) DataFrame基础之数据筛选

基于spark的DataFrame实战

pandas 之 DataFrame筛选数据

Spark - 数据倾斜实战之 skewness 偏度与 kurtosis 峰度 By ChatGPT4

大数据之Spark Sql（二）：DataFrame、创建DataFrame、DataFrame API实现

Spark零基础实战第4章 Scala模式匹配、类型系统彻底精通

Spark(RDD与DataFrame数据结构模型实战)

Scala实战高手****第4课：零基础彻底实战Scala控制结构及Spark源码解析

Spark之DataFrame创建

spark笔记之DataFrame

Spark SQL 基础语法实战

Spark案例实战之四

Spark实战之读写HBase

DataFrame 行列数据的筛选

pandas DataFrame 数据筛选

spark记录（4）spark算子之Action

Spark项目实战-数据清洗

4-Pandas之数据类型与数据筛选

大数据求索(9): log4j + flume + kafka + spark streaming实时日志流处理实战

Spark学习--4、键值对RDD数据分区、累加器、广播变量、SparkCore实战（Top10热门品类）

Spark编程基础4Spark Streaming、Spark MLlib

Spark SQL之 Dataframe/Dataset

Spark之DataFrame操作大全

python笔记4:数据结构之DataFrame

Spark SQL 笔记(14)——实战网站日志分析（4）代码重构之删除指定日期已有的数据

Spark零基础实战第12章 Spark简介

《Spark零基础实战》PDF版

Spark SQL实战(06)-RDD与DataFrame的互操作

Spark SQL实战(04)-API编程之DataFrame

Spark的DataFrame和Schema详解和实战案例Demo

今日推荐

探索 api.maynor1024.live：一站式 AI 服务平台

AI一键去衣技术：窥见深度学习在图像处理领域的革命(最后有彩蛋)

艾体宝案例 | 使用Redis和Spring Ai构建rag应用程序

Apple M1 vs 高通8Gen2 vs Apple A12Z各方面比较

【升职加薪必备架构图】Springboot学习路线汇总_springboot四层架构流程图

与Apollo共创生态：Apollo7周年大会自动驾驶生态利剑出鞘

Spring Boot 3.0：未来企业应用开发的基石

Java 的 AI 前景光明

国内首个智能体生态大会！2024百度万象大会定档5月30日

开源一周年，青语言新版发布

深入浅出：大型语言模型（LLM）的全面解读

顶会ICLR2024论文Time-LLM：基于大语言模型的时间序列预测

周排行

第五讲：AbstractBean以及Ioc常见注解使用和自动装配

python-re模块学习-正则表达式

黑客攻击常用手段

正则表达式的规则

windwos::mutex

Spring中日志的使用（log4j）

Bootstra5 按钮处理

JVM内存结构-这一篇全部了解

Android的低级错误

Oracle中Cursor, A表a1字段值复制到B表b1字段

每日归档

更多

2024-06-02(4)

2024-06-01(60)

2024-05-31(47)

2024-05-30(4)

2024-05-29(65)

2024-05-28(2)

2024-05-27(56)

2024-05-26(6)

2024-05-25(68)

2024-05-24(65)