【数据分析】:python:GroupBy:数据聚合与分组运算

版权声明:转载请联系博主。 https://blog.csdn.net/sunyaowu315/article/details/82774552
python:GroupBy:数据聚合与分组运算

目录:

  • 对数据集进行分组并对各组应用一个函数(无论是聚合还是转换),这是数据分析工作中的重要环节。在将数据集准备好之后,通常的任务就是计算分组统计或生成透视表。pandas提供了一个灵活的groupby功能,它能够以一种自然的方式对数据集进行切片、切块、摘要等操作。
  • 关系型数据库和SQL能够流行的原因之一就是能够方便地对数据进行连接、过滤、转换和聚合等。
  • python和pandas强大的能力,有助于执行更复杂的分组运算,如:
    • 根据一个或多个键(可以是函数、数组或DataFrame列名)拆分pandas对象
    • 计算分组摘要统计,如计数、平均值、标准差或用户自定义函数
    • 对DataFrame的列应用各种各样的函数
    • 应用组内转换或其他函数,如规格化、线性回归、排名或选取子集等
    • 计算透视表或交叉表等
    • 执行分位数分析以及其他分组分析

一 GroupBy技术

  • split-apply-combine(拆分-应用-合并),基本描述了groupby的整个过程。分组运算的第一个阶段,pandas对象中的数据会根据提供的键被拆分为多组,拆分操作是在对象的特定轴上执行的;然后将一个函数应用在各个分组并产生一个新值;最后,所有这些函数的执行结果会被合并到最终的结果对象中。
  • 分组键可以有多种形式,且类型不必相同:
    • 列表或数组,其长度与待分组的轴一样
    • 表示DataFrame某个列名的值
    • 字典或Series,给出待分组轴上的值与分组名之间的对应关系
    • 函数,用于处理轴索引或索引中的各个标签
  • 分组产生的变量grouped是一个GroupBy对象,实际上还没有进行任何计算,只是含有一些有关分组键的中间数据。换句话说,该对象已经有了接下来对各分组执行运算所需的一切信息。数据Series根据分组键进行了聚合,产生了一个新的Series
  • 如果通过两个键对数据进行分组,得到的Series具有一个层次化索引
  • 分组键可以为Series,也可以是任意长度的数组,还可以是列名
  • 分组过程中的“麻烦列”会在结果中被踢出。默认情况下,所有数值列都会被聚合,虽然有时可能会被过滤为一个子集。
  • 无论准备拿groupby干啥,都可能会用到groupby的size方法,它可以返回一个含有分组大小的Series

1 对分组进行迭代

  • GroupBy对象支持迭代,可以产生一组二元元组(由分组名和数据块组成)
for name,group in df.groupby(key1)
print(name)
print(group)
  • 对于多重键的情况,元组的第一个元素将会是由键值组成的元组
for (k1,k2) ,group in df.groupby(['key1','key2'])
print(k1,k2)
print(group)
  • 也可以对这些数据片段进行任何操作,例如:将这些数据片段做成一个字典:
pieces = dict(list(df.groupby('key1')))
peices['b']
  • groupby默认是在axis = 0上进行分组的,也可以设置在其他任何轴上进行分组

2 选取一个或一组列

  • 对于由DataFrame产生的groupby对象,如果用一个或一组列名对其进行索引,就能实现选取部分列进行聚合的目的。尤其对于大数据集,很可能只需要对部分列进行聚合。
df.groupby(['key1','key2'])[['data2']].mean()

3 通过字典或Series进行分组

  • 通过字典分组只需要将这个字典传给groupby即可
people = DataFrame(np.random.randn(5,5),columns = ['a','b','c','d','e'],idnex = ['joe','steve','wes','jim','travis'])
people.ix[2:3,['b','c']] = np.nan  #添加几个缺失值
mapping = {'a':'red','b':'red','c':'blue','d':'blue','e':'red','f':'orange'}
by_column = people.groupby(mapping,axis = 1)
  • Series也有同样的功能,它可以被看做一个固定大小的映射,pandas会检查Series以确保其索引跟分组轴是对齐的。

4 通过函数进行分组

  • 相较于字典或Series,python函数在定义分组映射关系时可以更有创意且更为抽象。任何被当做分组键的函数都会在各个索引值上被调用一次,其返回值就会被用作分组名称。
  • 将函数跟数组、列表、字典、Series混合使用也可以,因为任何东西最终会被转换为数组。

5 根据索引级别进行分组

  • 层次化索引数据集最方便的地方就在于它能够根据索引级别进行聚合。要实现该目的,通过leve关键字传入级别编号或名称即可。
columns = pd.MultiIndex.form_arrays([['US','US','US','JP','JP'],[1,3,5,1,3]],names = ['cty','tenor'])
hier_df = DataFrame(np.random.randn(4,5),columns = columns)
hier_df.groupby(level = 'cyt',axis = 1).count

二 数据聚合

  • 对于聚合,指的是任何能够从数组产生标量值的数据转换过程。许多常见的诸如mean、sum、count、min等聚合运算都有就地计算数据集统计信息的优化实现。然后,并不只能使用这些方法,可以使用自己发明的聚合运算,还可以调用分组对象上已经定义好的任何方法。
  • 如果要使用自己定义的聚合函数,只需将其传入aggregate或agg方法即可
  • 经过优化的groupby方法:
    • count # 分组中非NA值得数量
    • sum # 非NA值的和
    • mean # 非NA值的平均数
    • median # 非NA值的算术中位数
    • std、var # 无偏标准差和方差
    • min、max # 非NA值的最小值和最大值
    • prod # 非NA值的积
    • first、last # 第一个和最后一个非NA值
  • 有些方法也可以用在这里,但严格来讲,它们并非聚合运算。

1 面向列的多函数应用

  • 对Series或DataFrame列的聚合运算其实就是使用aggregate(使用自定义函数)或调用诸如mean、std之类的方法。然后,可以对不同的列使用不同的聚合函数,或一次应用多个函数。
  • 如果传入一组函数或函数名,得到的DataFrame的列就会以相应的函数命名
  • 并非一定要接受groupby给出的列名,特别是lambda函数,辨识度很低。如果传入的是一个由(name,function)元组组成的列表,则各元组的第一个元素就会被用作DataFrame的列名(可以将二元元组看做一个有序映射)。
  • 对于DataFrame,还可以定义一个应用于全部列的函数,或不同的列应用不同的函数。如果DataFrame拥有层次化的列,相当于分别对各列进行聚合,然后用concat将结果组合在一起(列名用作keys参数)。
  • 想要对不同的列应用不同的函数,具体的方法是向agg传入一个列名映射到函数的字典。

2 以“无索引”形式返回聚合数据

  • 可以向groupby传入as_index = False以禁用由分组键组成的索引这一功能。对结果调用reset_index也能得到这种形式的结果。

三 分组级运算和转换

  • 聚合只不过是分组运算的其中一种而已。它是数据转换的一个 特例,也就是说,它接受能够将一维数组简化为标量值的函数。
  • transform和apply方法,能够执行更多其他的分组运算。

1 apply:一般性的“拆分-应用-合并”

  • 跟aggregate一样,transform也是一个有着严格条件的特殊函数:传入的函数只能产生两种结果,要么产生一个可以广播的标量值,要么产生一个相同大小的结果数组。最一般化的groupby方法是apply,apply会将待处理的对象拆分成多个片段,然后对各片段调用传入的函数,最后尝试将各片段组合到一起。
  • 如果传给apply的函数能够接受其他参数或关键字,则可以将这些内容放在函数名后面一并传入。
tips.groupby(['smoker','day']).apply(top,n = 1,column = 'tptal_bill')
  • 除一些基本用法外,能否充分发挥apply的威力很大程度上取决于你的创造力。传入的那个函数能做什么全由你说了算,它只需要返回一个pandas对象或标量值即可。
result = tips.groupby('smoker')['tip_pit'].describe()
  • 禁止分组键

2 分位数和桶分析

  • pandas有一些能够根据指定面元或样本分位数将数据拆分成多块的工具(比如cut或qcut)。将这些函数跟groupby结合起来,就能非常轻松地实现对数据集的桶(bucket)或分位数(quantile)分析
1)示例:用特定分组的值填充缺失值
2)示例:随机采样和排列
3)示例:分组加权平均数和相关系数
4)示例:面向分组的线性回归

四 透视表和交叉表

1 透视表

  • 透视表(pivot_table)是各种电子表格 程序和其他数据分析软件中一种常见的数据汇总工具。它根据一个或多个键对数据进行聚合,并根据行和列上的分组键将数据分配到各个矩形区域中。在python和pandas中,可以通过groupby功能以及层次化索引的重塑运算制作透视表。DataFrame有一个pivot_table方法,此外还有一个顶级的pandas.pivot_table函数。除能为groupby提供便利外,pivot_table还可以添加分项小计。
  • pivot_table的参数
    • ① values # 待聚合的列的名称,默认聚合所有数值列
    • ② rows # 用于分组的列名和其他分组键,出现在结果透视表的行
    • ③ cols # 用于分组的列名或其他分组键,出现在结果透视表的列
    • ④ aggfunc # 聚合函数或函数列表,默认为mean,可以是任何对groupby有效的函数
    • ⑤ fill_value # 用于替换结果表中的缺失值
    • ⑥ margins # 添加行、列小计和总计,默认为False
tips.pivot_table('tip_pct',rows = ['sex','smoker'],cols = 'day',aggfunc = len,margins = True)

2 交叉表

  • 交叉表(crosstab)是一种用于计算分组频率的特殊透视表
  • 假设我们想要根据某两个特征对数据进行汇统计汇总,虽然pivot_table可以实现该功能,但pandas.crosstab函数会更加方便。

五 END

猜你喜欢

转载自blog.csdn.net/sunyaowu315/article/details/82774552