Una breve introducción a los diagramas de caja

1 Introducción a los diagramas de caja

Diagrama de caja, utilizado como un gráfico estadístico que muestra la dispersión de datos en un conjunto de datos.
Ventajas: no afectado por valores atípicos, puede describir de manera precisa y estable la distribución discreta de datos
inserte la descripción de la imagen aquí

Un ejemplo: un conjunto de números 12, 15, 17, 19, 20, 23, 25, 28, 30, 33, 34, 35, 36, 37 (14 en total) parámetros importantes: 1. Cuartil inferior Q1: igual a la posición del percentil 25 número Q1 después de que todos los valores en la muestra se ordenen de menor a mayor = (14+1)/4=3. 75 [0.75 del 3ro + 0.2 del 4to 5] Q1 =0.25×tercer ítem+0.75×cuarto ítem=0.25×17+0.75×
19
=
18.5
;,

2. Mediana (segundo cuartil) Q2: El percentil 50 de todos los valores de la muestra ordenados de menor a mayor

La posición de Q2=2×(14+1)/4=7,5
Q2=0,5×7º elemento+0,5×8º elemento=0,5×25+0,5×28=26,5;

3. Cuartil superior Q3: Igual al percentil 75 de todos los valores de la muestra ordenados de menor a mayor

La posición de Q3=3×(14+1)/4=11,25
Q3=0,75×11° elemento+0,25×12° elemento=0,75×34+0,25×35=34,25;

4. Rango intercuartílico (RIQ):

RIC=Q3-Q1

5. Límite superior: el valor máximo dentro del rango no anómalo

Límite superior=Q3+1.5IQR

6. Límite superior: el valor máximo dentro del rango no anómalo

Límite inferior=Q1-1.5IQR

7. Valores atípicos: Los valores atípicos entre el límite interior y el límite exterior son valores atípicos leves [valores atípicos leves] ||||Los valores atípicos fuera del límite exterior son valores atípicos extremos [valores atípicos extremos]

2 Análisis de diagrama de caja

  1. Identificación de valores atípicos
  2. Juzgar la asimetría y el peso de la cola de los datos
    Para las muestras con una distribución normal estándar, solo unas pocas son valores atípicos.Cuantos más valores atípicos, más pesada es la cola y menor el grado de libertad.
    **La asimetría indica el grado de desviación. Si los valores atípicos se concentran en el lado del valor más pequeño, la distribución es sesgada a la izquierda; si los valores atípicos se concentran en el lado del valor más grande, la distribución es sesgada a la derecha.
  3. Compare las formas de varios lotes de datos de acuerdo con diferentes diagramas de caja
    Desde el diagrama de caja, puede ver el [promedio, mediana, intervalo de distribución, valor atípico] de los datos

Enlace de aprendizaje:

Supongo que te gusta

Origin blog.csdn.net/weixin_45913084/article/details/131109460
Recomendado
Clasificación