用统计指标对定量数据进行统计分析,常从集中趋势和离中趋势两个方面分析。
一、集中趋势度量
1、均值:所有数的平均数
2、中位数:将一组数据从小到大排序,位于中间的那个数
3、众数:数据集中出现最频繁的值
二、离中趋势度量
1、极差:最大值与最小值之差
2、标准差:度量数据偏离均值的程度
3、变异系数:度量标准差相对于均值的离中程度
4、四分位数间距:上四分位数与下四分位数之差,包含了全部观测值的一般。其值越大,说明数据的变异程度越大。
# 餐饮销量数据统计量分析
import pandas as pd
catering_sale = './data/catering_sale.xls' # 餐饮数据
data = pd.read_excel(catering_sale, index_col = u'日期') # 读取数据,指定“日期”列为索引列
data = data[(data[u'销量'] > 400)&(data[u'销量'] < 5000)] # 过滤异常数据
statistics = data.describe() # 保存基本统计量
statistics.loc['range'] = statistics.loc['max']-statistics.loc['min'] # 极差
statistics.loc['var'] = statistics.loc['std']/statistics.loc['mean'] # 变异系数
statistics.loc['dis'] = statistics.loc['75%']-statistics.loc['25%'] # 四分位数间距
print(statistics)