【Spark】Spark常用方法总结3-DataFrame常用方法（Python版本）

其他 2020-01-29 19:49:18 阅读次数: 0

创建

df1 = spark.read.load(r'E:\常用基础数据\po.csv', 'csv')

schema = StructType(
    fields=list(map(lambda x: StructField(x, StringType(), True), [chr(ord('A') + x) for x in range(10)])))
df1 = spark.read.load(r'E:\常用基础数据\po.csv', 'csv', schema=schema)

show

#默认是(n=20, truncate=True, vertical=False)
n显示多少条记录, truncate是否省略长度大于20的字符串, vertical竖向显示

df1.show(n=20, truncate=True, vertical=False)

创建虚拟表

创建

df1.createOrReplaceTempView('purchase_order1')
df1.createGlobalTempView('purchase_order2')
df1.createTempView('purchase_order3')

查询

df2 = spark.sql('select * from purchase_order1 limit 10')

createGlobalTempView需要加global_temp

df3 = spark.sql('select * from global_temp.purchase_order2 limit 10')
df4 = spark.sql('select * from purchase_order3 limit 10')

filter/where

df1.filter(df1.A == 1)
df1.filter('A = 1')

join

other – Right side of the join
on – a string for the join column name, a list of column names, a join expression (Column), or a list of Columns. If on is a string or a list of strings indicating the name of the join column(s), the column(s) must exist on both sides, and this performs an equi-join.
how – str, default inner. Must be one of: inner, cross, outer, full, full_outer, left, left_outer, right, right_outer, left_semi, and left_anti.

join_df = df3.join(other=df4, on=(df3.H == df4.B), how='left_outer')
join_df = join_df.filter('fc.A is null')

distinct

buyer_names = df3.select(df3.D)
34693
print(buyer_names.count())
173
print(buyer_names.distinct().count())

select

a_col = df3.select(df3['A'])
a_col = df3.select((df3['A'] * 100).alias('test'))

refbit

发布了6 篇原创文章 · 获赞 0 · 访问量 156

私信关注

猜你喜欢

转载自blog.csdn.net/refbit/article/details/104109126

【Spark】Spark常用方法总结3-DataFrame常用方法（Python版本）

【Spark】Spark常用方法总结4-SparkStreaming（Python版本）

【Spark】Spark常用方法总结2-RDD的使用（Python版本）

【Spark】Spark常用方法总结1-创建编程入口（Python版本）

[Spark]Spark常用的优化方法

Spark常用优化方法

Spark DataFrame常用操作

spark的DataFrame常用操作

Spark常用的算子总结（3）—— flatMapValues

Spark常用算子总结

spark 常用技巧总结

spark 常用算子总结

pandas DataFrame的常用方法

dataframe中常用的方法

DataFrame常用方法详解

Spark 解决数据倾斜的几种常用方法

Python之DataFrame常用方法小结

Spark DataFrame写入HBase的常用方式

Spark DataFrame写入HBASE常用方式

spark笔记之DataFrame常用操作

Spark创建SparkSession，dataframe常用操作

Python常用方法总结

Spark SQL中创建 DataFrame 方法

spark 常用技巧总结2

Spark常用算子总结大全

Spark常用的算子总结——Map

Spark RDD 常用算子总结

pyspark常用dataframe处理方法

pandas之DataFrame常用方法

DataFrame常用的属性和方法

今日推荐

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

周排行

女程序员是这样被恶搞的

B/S 和 C/S 的优缺点

vector一直申请会怎样？

座头鲸识别比赛(Humpback Whale Identification)总结

Linux高性能服务器编程——I/O复用 select

Mysql连接数据库（当包使用）

通过URI获取的文件路径为null的解决方法

1022-Primes on Interval(素数筛选+二分查找) ZCMU

Python出现： TypeError: expected string or buffer

bzoj2434: [Noi2011]阿狸的打字机 ac自动机+树状数组

每日归档

更多

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)