Exploración de datos de minería de datos para principiantes (4): análisis estadístico del análisis de características de datos

Análisis estadístico de datos cuantitativos con indicadores estadísticos, a menudo desde dos aspectos de tendencia central y tendencia descentralizada.

1. Medición de tendencia central

1. Media: el promedio de todos los números
Inserte la descripción de la imagen aquí

2. Mediana: ordena un conjunto de datos de pequeño a grande, el número en el medio
3. Modo: el valor más frecuente en el conjunto de datos

2. Medida de la desviación del centro

1. Rango: la diferencia entre los valores máximo y mínimo.
2. Desviación estándar: el grado de desviación de los datos de medición de la media.
Inserte la descripción de la imagen aquí
3. Coeficiente de variación: el grado de desviación de la desviación estándar de medición de la media.
Inserte la descripción de la imagen aquí
4. Rango intercuartílico: cuartil superior La diferencia entre el número y el cuartil inferior contiene la generalidad de todas las observaciones. Cuanto mayor sea el valor, mayor será el grado de variación de los datos.

# 餐饮销量数据统计量分析
import pandas as pd

catering_sale = './data/catering_sale.xls'  # 餐饮数据
data = pd.read_excel(catering_sale, index_col = u'日期')  # 读取数据,指定“日期”列为索引列
data = data[(data[u'销量'] > 400)&(data[u'销量'] < 5000)]  # 过滤异常数据
statistics = data.describe()  # 保存基本统计量

statistics.loc['range'] = statistics.loc['max']-statistics.loc['min']  # 极差
statistics.loc['var'] = statistics.loc['std']/statistics.loc['mean']  # 变异系数
statistics.loc['dis'] = statistics.loc['75%']-statistics.loc['25%']  # 四分位数间距

print(statistics)

Inserte la descripción de la imagen aquí

Supongo que te gusta

Origin blog.csdn.net/qq_45154565/article/details/109304301
Recomendado
Clasificación