Pandas分组统计函数：groupby、pivot_table及crosstab - 代码天地

Pandas分组统计函数：groupby、pivot_table及crosstab

其他 2018-07-10 10:22:20 阅读次数: 0

利用python的pandas库进行数据分组分析十分便捷，其中应用最多的方法包括：groupby、pivot_table及crosstab，以下分别进行介绍。

0、样例数据

df = DataFrame({ 'key1':[ 'a', 'a', 'b', 'b', 'a'], 'key2':[ 'one', 'two', 'one', 'two', 'one'], 'data1':np.random.randn( 5), 'data2':np.random.randn( 5)})
df
#[Out]# data1 data2 key1 key2
#[Out]# 0 0.439801 1.582861 a one
#[Out]# 1 -1.388267 -0.603653 a two
#[Out]# 2 -0.514400 -0.826736 b one
#[Out]# 3 -1.487224 -0.192404 b two
#[Out]# 4 2.169966 0.074715 a one

1、分组groupby

Pandas中最为常用和有效的分组函数。

1）按列分组

注意以下使用groupby()函数生成的group1是一个中间分组变量，为GroupBy类型。

group1 = df.groupby( 'key1')
group1
#[Out]# <pandas.core.groupby.DataFrameGroupBy object at 0x0000000009CA5780>

既可依据单个列名’key1’进行为分组，也可依据多个列名['key1','key2']进行分组。

group2 = df.groupby([ 'key1', 'key2'])
group2
#[Out]# <pandas.core.groupby.DataFrameGroupBy object at 0x0000000009CB4128>

使用推导式[x for x in group1]可显示分组内容。

[x for x in group1]
#[Out]# [('a', data1 data2 key1 key2
#[Out]# 0 0.439801 1.582861 a one
#[Out]# 1 -1.388267 -0.603653 a two
#[Out]# 4 2.169966 0.074715 a one),
#[Out]# ('b', data1 data2 key1 key2
#[Out]# 2 -0.514400 -0.826736 b one
#[Out]# 3 -1.487224 -0.192404 b two)]

2）按分组统计

在分组group1、group2上应用size()、sum()、count()等统计函数，能分别统计分组数量、不同列的分组和、不同列的分组数量。

group1.size()
#[Out]# key1
#[Out]# a 3
#[Out]# b 2
#[Out]# dtype: int64
group1.sum()
#[Out]# data1 data2
#[Out]# key1
#[Out]# a 1.221499 1.053922
#[Out]# b -2.001624 -1.019140
group2.size()
#[Out]# key1 key2
#[Out]# a one 2
#[Out]# two 1
#[Out]# b one 1
#[Out]# two 1
#[Out]# dtype: int64
group2.count()
#[Out]# data1 data2
#[Out]# key1 key2
#[Out]# a one 2 2
#[Out]# two 1 1
#[Out]# b one 1 1
#[Out]# two 1 1

3）应用agg()

对于分组的某一列或者多个列，应用agg(func)可以对分组后的数据应用func函数。例如：用group1['data1'].agg('mean')对分组后的’data1’列求均值。当然也可以推广到同时作用于多个列和使用多个函数上。

group1[ 'data1'].agg( 'mean')
#[Out]# key1
#[Out]# a 0.407166
#[Out]# b -1.000812
#[Out]# Name: data1, dtype: float64
group1[ 'data1'].agg([ 'mean', 'sum'])
#[Out]# mean sum
#[Out]# key1
#[Out]# a 0.407166 1.221499
#[Out]# b -1.000812 -2.001624
group1[ 'data1', 'data2'].agg([ 'mean', 'sum'])
#[Out]# data1 data2
#[Out]# mean sum mean sum
#[Out]# key1
#[Out]# a 0.407166 1.221499 0.351307 1.053922
#[Out]# b -1.000812 -2.001624 -0.509570 -1.019140

4）应用apply()

apply()不同于agg()的地方在于：前者应用于dataframe的各个列，后者仅作用于指定的列。

df.groupby( 'key1').apply(mean)
#[Out]# data1 data2
#[Out]# key1
#[Out]# a 0.407166 0.351307
#[Out]# b -1.000812 -0.509570
df.groupby([ 'key1', 'key2']).apply(mean)
#[Out]# data1 data2
#[Out]# key1 key2
#[Out]# a one 1.304883 0.828788
#[Out]# two -1.388267 -0.603653
#[Out]# b one -0.514400 -0.826736
#[Out]# two -1.487224 -0.192404

2、透视表pivot_table

可以产生类似于excel数据透视表的结果，相当的直观。

1）分组统计

其中参数index指定“行”键，columns指定“列”键。

df
#[Out]# data1 data2 key1 key2
#[Out]# 0 0.439801 1.582861 a one
#[Out]# 1 -1.388267 -0.603653 a two
#[Out]# 2 -0.514400 -0.826736 b one
#[Out]# 3 -1.487224 -0.192404 b two
#[Out]# 4 2.169966 0.074715 a one
pd.pivot_table(df, index= 'key1', columns= 'key2')
#[Out]# data1 data2
#[Out]# key2 one two one two
#[Out]# key1
#[Out]# a 1.304883 -1.388267 0.828788 -0.603653
#[Out]# b -0.514400 -1.487224 -0.826736 -0.192404
df.pivot_table([ 'data1'], index= 'key1',columns= 'key2')
#[Out]# data1
#[Out]# key2 one two
#[Out]# key1
#[Out]# a 1.304883 -1.388267
#[Out]# b -0.514400 -1.487224

2）分项汇总

如果将参数margins设置为True，则可以得到分项总计数据。

df.pivot_table(index= 'key1',columns= 'key2', margins= True)
#[Out]# data1 data2
#[Out]# key2 one two All one two All
#[Out]# key1
#[Out]# a 1.304883 -1.388267 0.407166 0.828788 -0.603653 0.351307
#[Out]# b -0.514400 -1.487224 -1.000812 -0.826736 -0.192404 -0.509570
#[Out]# All 0.698455 -1.437746 -0.156025 0.276947 -0.398029 0.006956

3、交叉表crosstab

可以按照指定的行和列统计分组频数，用起来非常方便；当然同样的功能也可采用groupby实现。

pd.crosstab(df.key1,df.key2, margins= True)
#[Out]# key2 one two All
#[Out]# key1
#[Out]# a 2 1 3
#[Out]# b 1 1 2
#[Out]# All 3 2 5

很幸运能够有这么多好用的方法，大大简化了数据分组分析的过程。

猜你喜欢

转载自blog.csdn.net/kwame211/article/details/80974257

Pandas分组统计函数：groupby、pivot_table及crosstab

pandas分组统计：groupby，melt，pivot_table，crosstab的用法

pandas pivot pivot_table groupby crosstab用法与区别详解

pandas中的pivot_table和crosstab

pandas之groupby分组与pivot_table透视表

pivot_table() crosstab()

Pandas —— 透视表pivot_table()和交叉表crosstab()

pandas中的groupby、transform以及pivot_table

pandas dataframe pivot_table

stack,unstack,groupby,pivot_table的区别

pandas使用教程：数据透视表函数 pivot_table

透视表pivot_table和交叉表crosstab

pandas的groupby以及pivot_table用法——以计算恩格尔系数为例

pandas pivot_table或者groupby实现sql 中的count distinct 功能

pandas中pivot_table透视表

详解 Pandas 透视表（pivot_table）

Pandas透视表（pivot_table）详解

Pandas透视表（pivot_table）说明

pandas的透视表pivot_table

Pandas 透视表pivot_table详解

Pandas中pivot_table的使用

Pandas reshape相关函数介绍（pivot，pivot_table，stack，unstack，melt）

用groupby 配合unstack,可以实现pivot_table

pandas数据处理实践五（透视表pivot_table、分组和透视表实战Grouper和pivot_table）

利用Pandas中pivot_table函数生成数据透视表

python pandas 模块 pivot_table 函数的使用，比Excel透视更强大

精通Pandas变形操作：pivot_table()、get_dummies()、stack()函数

pandas pivot_table 活学活用实例教程

Pandas数据透视表之pivot_table

51 pandas pivot_table数据透视表（tcy）

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)