python笔记24:数据分析之基本统计

# -*- coding: utf-8 -*-
#1、概念：基本统计分析：描述性统计分析，用来概括事物整体状况以及事物间联系（即事物的基本特征），以发现其内在规律的统计分析方法。
# 常用的统计指标：计数、求和、平均值、方差、标准差
#方差：统计中的方差（样本方差）是每个样本值与全体样本值的平均数之差的平方值的平均数。在许多实际问题中，研究方差即偏离程度有着重要意义。
#标准差：标准差是方差的算术平方根.标准差能反映一个数据集的离散程度.平均数相同的,标准差未必相同。一个较大的标准差，代表大部分数值和其平均值之间差异较大；一个较小的标准差，代表这些数值较接近平均值

#2、描述性统计分析函数：describe()：在需要分析的变量列后直接调用，就可以得到描述性信息，如最小值、最大值、标准差等等
#常用的统计函数：
#size:计数
#sum：求和
#mean：平均值
#var:方差
#std：标准差

import pandas

data = pandas.read_csv("D:/workspaces/python/pythonStudy/24.csv")

data.score.describe()

data.score.size

data.score.max()

data.score.min()

data.score.sum()

data.score.mean() #平均值

data.score.var() #方差

data.score.std() #标准差

#累计求和：
data.score.cumsum() #注意：不是单纯的求和！它的返回值是一个序列，可以看到累计求和的过程数据

data.score.argmin() #最小值的位置（下标从0开始）

data.score.argmax() #最大值的位置

#下面这个函数很常用，特别是在rfm分析当中。函数名称：分位数函数；作用：进行分位数的求解

#什么是统计学中的p分位数：
#就是先把一列数按从小到大排序,如果一共有n个数,那么四分之一分位数就是第n*0.25个数,四分之三分位数就是第n*0.75个数,以此类推,p分位数就是第n*p个数.如果n*p不是整数则往最接近的较大的整数上归

#求出排序在30%的数值：
data.score.quantile(0.3,interpolation="nearest")

#interpolation="nearest" 表示如果找不到精确的百分位排序数，那么使用离它最近的那个数字进行返回

python笔记24:数据分析之基本统计

猜你喜欢