初学数据挖掘——数据探索(四):数据特征分析之统计量分析

用统计指标对定量数据进行统计分析,常从集中趋势和离中趋势两个方面分析。

一、集中趋势度量

1、均值:所有数的平均数
在这里插入图片描述

2、中位数:将一组数据从小到大排序,位于中间的那个数
3、众数:数据集中出现最频繁的值

二、离中趋势度量

1、极差:最大值与最小值之差
2、标准差:度量数据偏离均值的程度
在这里插入图片描述
3、变异系数:度量标准差相对于均值的离中程度
在这里插入图片描述
4、四分位数间距:上四分位数与下四分位数之差,包含了全部观测值的一般。其值越大,说明数据的变异程度越大。

# 餐饮销量数据统计量分析
import pandas as pd

catering_sale = './data/catering_sale.xls'  # 餐饮数据
data = pd.read_excel(catering_sale, index_col = u'日期')  # 读取数据,指定“日期”列为索引列
data = data[(data[u'销量'] > 400)&(data[u'销量'] < 5000)]  # 过滤异常数据
statistics = data.describe()  # 保存基本统计量

statistics.loc['range'] = statistics.loc['max']-statistics.loc['min']  # 极差
statistics.loc['var'] = statistics.loc['std']/statistics.loc['mean']  # 变异系数
statistics.loc['dis'] = statistics.loc['75%']-statistics.loc['25%']  # 四分位数间距

print(statistics)

在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/qq_45154565/article/details/109304301