pyspark系列--pandas和pyspark对比

其他 2018-07-07 00:04:30 阅读次数: 0

目录

1. pandas和pyspark对比

1. pandas和pyspark对比

1.1. 工作方式

pandas
单机single machine tool，没有并行机制parallelism，不支持Hadoop，处理大量数据有瓶颈
pyspark
分布式并行计算框架，内建并行机制parallelism，所有的数据和操作自动并行分布在各个集群结点上。以处理in-memory数据的方式处理distributed数据。支持Hadoop，能处理大量数据。

1.2. 延迟机制

pandas
not lazy-evaluated
pyspark
lazy-evaluated

1.3. 内存缓存

pandas
单机缓存
pyspark
persist() or cache()将转换的RDDs保存在内存

1.4. DataFrame可变性

pandas
Pandas中DataFrame是可变的
pyspark
Spark中RDDs是不可变的，因此DataFrame也是不可变的

1.5. 创建

pandas
从spark_df转换：pandas_df = spark_df.toPandas()，或读取其他数据
pyspark
从pandas_df转换：spark_df = SQLContext.createDataFrame(pandas_df)
另外，createDataFrame支持从list转换spark_df，其中list元素可以为tuple，dict，rdd

1.6. index索引

pandas
自动创建
pyspark
没有index索引，若需要则要额外创建该列

1.7. 行结构

pandas
Series结构，属于Pandas DataFrame结构
pyspark
Row结构，属于Spark DataFrame结构

1.8. 列结构

pandas
Series结构，属于Pandas DataFrame结构
pyspark
Column结构，属于Spark DataFrame结构，如：DataFrame[name: string]

1.9. 列名称

pandas
不允许重名
pyspark
允许重名,修改列名采用alias方法

1.10. 列添加

pandas
df[“xx”] = 0
pyspark
df.withColumn(“xx”, 0).show() 会报错
from pyspark.sql import functions
df.withColumn(“xx”, functions.lit(0)).show()

1.11. 列修改

pandas
原来有df[“xx”]列，df[“xx”] = 1
pyspark
原来有df[“xx”]列，df.withColumn(“xx”, 1).show()

1.12. 显示

pandas
df 输出具体内容
pyspark
df 不输出具体内容，输出具体内容用show方法.
输出形式：DataFrame[age: bigint, name: string]
以树的形式打印概要：df.printSchema()
用df.collect(5)

1.13. 排序

pandas
df.sort_index() 按轴进行排序
df.sort() 在列中按值进行排序
pyspark
df.sort() 在列中按值进行排序

1.14. 选择或切片

pandas	pyspark
`df.name` 输出具体内容	df[] 不输出具体内容，输出具体内容用show方法。
	`df['name']` 不输出具体内容，输出具体内容用show方法
`df['name']` 输出具体内容	`df.select()` 选择一列或多列.
	`df.select('name')`
	切片 `df.select(df['name'], df['age']+1)`
`df[0] ,df.ix[0]`	`df.first()`
`df.head(2)`	`df.head(2), df.take(2)`
`df.tail(2)`
切片 `df.ix[:3]`或者`df.ix[:'xx']`或者`df[:'xx']`
`df.loc[]` 通过标签进行选择
`df.iloc[]` 通过位置进行选择

1.15. 过滤

pandas
df[df['age']>21]
pyspark
df.filter(df['age']>21) 或者 df.where(df['age']>21)

1.16. 整合

pandas
df.groupby('age')
df.groupby('A').avg('B')
pyspark
df.groupBy('age')
df.groupBy('A').avg('B').show() 应用单个函数
from pyspark.sql import functions 导入内置函数库
df.groupBy('A').agg(functions.avg('B'), functions.min('B'), functions.max('B')).show() 应用多个函数

1.17. 统计

pandas
df.count() 输出每一列的非空行数
df.describe() 描述某些列的count, mean, std, min, 25%, 50%, 75%, max
pyspark
df.count() 输出总行数
df.describe() 描述某些列的count, mean, stddev, min, max

1.18. 合并

pandas
Pandas下有concat方法，支持轴向合并
Pandas下有merge方法，支持多列合并
同名列自动添加后缀，对应键仅保留一份副本
df.join() 支持多列合并
df.append() 支持多行合并
pyspark
Spark下有join方法即df.join()
同名列不自动添加后缀，只有键值完全匹配才保留一份副本

1.19. 失数据处理

pandas	pyspark
对缺失数据自动添加NaNs	不自动添加NaNs，且不抛出错误
fillna函数：`df.fillna()`	fillna函数：`df.na.fill()`
dropna函数：`df.dropna()`	dropna函数：`df.na.drop()`

1.20. SQL语句

pandas
import sqlite3
pd.read_sql("SELECT name, age FROM people WHERE age >= 13 AND age <= 19")
pyspark
1.表格注册：把DataFrame结构注册成SQL语句使用类型
df.registerTempTable('people') 或者 sqlContext.registerDataFrameAsTable(df, 'people')
spark.sql('SELECT name, age FROM people WHERE age >= 13 AND age <= 19')
2.功能注册：把函数注册成SQL语句使用类型
spark.registerFunction('stringLengthString', lambda x: len(x))
spark.sql("SELECT stringLengthString('test')")

1.21. 两者互相转换

pandas_df = spark_df.toPandas()
spark_df = spark.createDataFrame(pandas_df)

1.22. 函数应用

pandas
df.apply(f) 将df的每一列应用函数f
pyspark
df.foreach(f) 或者 df.rdd.foreach(f) 将df的每一列应用函数f
df.foreachPartition(f) 或者 df.rdd.foreachPartition(f) 将df的每一块应用函数f

1.23. map-reduce操作

pandas
map-reduce操作map(func, list)，reduce(func, list) 返回类型seq
pyspark
df.map(func)，df.reduce(func) 返回类型seqRDDs

1.24. diff操作

pandas
有diff操作，处理时间序列数据（Pandas会对比当前行与上一行）
pyspark
没有diff操作（Spark的上下行是相互独立，分布式存储的）

猜你喜欢

转载自blog.csdn.net/suzyu12345/article/details/79673483

pyspark系列--pandas和pyspark对比

pyspark系列--连接pyspark

pyspark系列--pyspark读写dataframe

PySpark Pandas UDF

Pandas 与 PySpark DataFrame 示例

pyspark系列--集合操作

pyspark系列--日期函数

pyspark系列--统计基础

pyspark系列--datafrane进阶

pyspark系列--dataframe基础

pyspark系列--读写dataframe

hadoop系列整理---PySpark

pyspark、pandas 1:n采样

pyspark配置和使用

pyspark：ML和MLlib

pyspark：RDD和DataFrame

pyspark系列--pyspark2.x环境搭建

pyspark和sparksql啥区别

spark的介绍和pyspark的使用

pyspark df 和pandas df 的行数count不一样

pyspark学习系列（三）利用SQL查询

pyspark学习系列（一）创建RDD

pyspark学习系列（四）数据清洗

pyspark系列--字符串函数

pyspark系列--自定义函数

PySpark数据分析基础：PySpark Pandas创建、转换、查询、转置、排序操作详解

PySpark操作

pyspark NaiveBayes

pyspark LDA

pyspark 浅析

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)