pandas入门: 数据统计常用函数总结

pandas常用的数据统计函数总结。

  • 创建一个dataframe
df = pd.DataFrame({'A': [3, 4, 8, 9],
                   'B': [1.2, 2.4, 4.5, 7.3],
                   'C': ["aa", "bb", "cc", "dd"]})

结果如下:

   A    B   C
0  3  1.2  aa
1  4  2.4  bb
2  8  4.5  cc
3  9  7.3  dd
  • 数值列汇总统计
df.describe() # 查看数据值列的汇总统计, 字符串类型的列不会显示

结果如下:

             A         B
count  4.00000  4.000000
mean   6.00000  3.850000
std    2.94392  2.673948
min    3.00000  1.200000
25%    3.75000  2.100000
50%    6.00000  3.450000
75%    8.25000  5.200000
max    9.00000  7.300000
  • 平均值
df.mean() # 查看数值列的平均值,字符串类型的列不会统计

结果如下:

A    6.00
B    3.85
dtype: float64
  • 相关系数
df.corr() # 返回数值列之间的相关系数

结果如下:

          A         B
A  1.000000  0.952757
B  0.952757  1.000000
  • 每一列非空值个数统计
df.count() # 返回每一列中的非空值的个数

结果如下:

A    4
B    4
C    4
dtype: int64
  • 每列的最大值
df.max() # 返回每一列的最大值

结果如下:

A      9
B    7.3
C     dd
dtype: object
  • 每列的最小值
df.min() # 返回每一列的最小值

结果如下:

A      3
B    1.2
C     aa
dtype: object
  • 每列中位数
df.median() # 返回每一列的中位数

结果如下:

A    6.00
B    3.45
dtype: float64
  • 标准差
df.std() # 返回每一数值列的标准差

结果如下:

A    2.943920
B    2.673948
dtype: float64
  • 每列求和
df.sum() # 返回每一列的总和

结果如下:

A          24
B        15.4
C    aabbccdd
dtype: object
  • 每列空值的数量
df.isnull().sum() # 统计每列空值的数量

结果如下:

A    0
B    0
C    0
dtype: int64

欢迎关注,一起学习

参考:

https://www.cnblogs.com/zhaohuanhuan/p/9177277.html

https://www.pypandas.cn/docs/getting_started/10min.html

发布了79 篇原创文章 · 获赞 45 · 访问量 22万+

猜你喜欢

转载自blog.csdn.net/jp_666/article/details/104229133