Análisis estadístico de datos cuantitativos con indicadores estadísticos, a menudo desde dos aspectos de tendencia central y tendencia descentralizada.
1. Medición de tendencia central
1. Media: el promedio de todos los números
2. Mediana: ordena un conjunto de datos de pequeño a grande, el número en el medio
3. Modo: el valor más frecuente en el conjunto de datos
2. Medida de la desviación del centro
1. Rango: la diferencia entre los valores máximo y mínimo.
2. Desviación estándar: el grado de desviación de los datos de medición de la media.
3. Coeficiente de variación: el grado de desviación de la desviación estándar de medición de la media.
4. Rango intercuartílico: cuartil superior La diferencia entre el número y el cuartil inferior contiene la generalidad de todas las observaciones. Cuanto mayor sea el valor, mayor será el grado de variación de los datos.
# 餐饮销量数据统计量分析
import pandas as pd
catering_sale = './data/catering_sale.xls' # 餐饮数据
data = pd.read_excel(catering_sale, index_col = u'日期') # 读取数据,指定“日期”列为索引列
data = data[(data[u'销量'] > 400)&(data[u'销量'] < 5000)] # 过滤异常数据
statistics = data.describe() # 保存基本统计量
statistics.loc['range'] = statistics.loc['max']-statistics.loc['min'] # 极差
statistics.loc['var'] = statistics.loc['std']/statistics.loc['mean'] # 变异系数
statistics.loc['dis'] = statistics.loc['75%']-statistics.loc['25%'] # 四分位数间距
print(statistics)