[Notas estadísticas] (8) Análisis de datos de clasificación

(8) Análisis de datos de clasificación

Primero piensa en el problema:

1. ¿Por qué deberían clasificarse los datos? ¿Cómo clasificar los datos?

2. Después de clasificar los datos, ¿cómo analizar los datos clasificados?

Clasificación de datos


Los resultados de las variables categóricas aparecen como categorías, por ejemplo: las categorías de género (masculino, femenino)
se miden con símbolos o códigos numéricos
mediante clasificación o escala de orden

  • ¿Fumas? 1. Sí; 2. No
  • ¿Está de acuerdo o en desacuerdo con este plan de reforma? 1. A favor; 2. En contra

clasificación de los datos descritos y analizados mediante tabla de contingencia generalmente
disponible \ chi ^ {2}prueba 

\ chi ^ {2} Estadísticas

\ chi ^ {2}Se puede usar para determinar el grado de correlación entre dos variables categóricas. Si utiliza la f_ {o}frecuencia observada (frecuencia observada) y la f_ {e}frecuencia esperada (frecuencia esperada), las \ chi ^ {2}estadísticas se pueden escribir como:

\ chi ^ {2} El estadístico tiene las siguientes características: primero  \ chi ^ {2} \ geqslant 0, porque es un resumen del resultado al cuadrado; segundo, \ chi ^ {2}la distribución del estadístico está relacionada con el grado de libertad; finalmente, el \ chi ^ {2} estadístico describe la cercanía del valor observado y el valor esperado. Cuanto más cerca están los dos, es decir, cuanto \ left |  f_ {0} -f_ {e} \ right | más pequeño , menor es el \ chi ^ {2} valor calculado  ; por el contrario, cuanto \ left |  f_ {0} -f_ {e} \ right | mayor es, mayor es el \ chi ^ {2}valor calculado . \ chi ^ {2}La prueba consiste en tomar una decisión estadística sobre si rechazar la hipótesis nula comparando \ chi ^ {2}el resultado calculado con \ chi ^ {2}el valor crítico en la distribución.

 \ chi ^ {2} La relación entre distribución y grados de libertad se muestra en la figura anterior. La figura anterior muestra las \ chi ^ {2} distribuciones correspondientes cuando los grados de libertad son 1, 5 y 10, respectivamente  .

Cuanto menor es el grado de libertad, más inclinada está la distribución hacia la izquierda. A medida que aumenta el grado de libertad, \ chi ^ {2}la asimetría de la distribución tiende a disminuir, mostrando gradualmente la simetría. A medida que el grado de libertad continúa aumentando, la \ chi ^ {2}distribución se acercará a una simétrica positiva Distribución estatal

Usando \ chi ^ {2}estadísticas, puede realizar una prueba de bondad de ajuste y una prueba de independencia en los datos clasificados.

Prueba de bondad de ajuste

La prueba de bondad de ajuste es \ chi ^ {2}uno de los contenidos importantes de la prueba de significación estadística que utiliza estadísticas. Calcula la frecuencia esperada de cada categoría en la variable categórica en función del estado de análisis general, la compara con la frecuencia observada de la distribución y juzga si hay una diferencia significativa entre la frecuencia esperada y la frecuencia observada, logrando así el propósito de analizar la variable categórica.

Análisis de contingencia: prueba de independencia

El análisis de dos variables categóricas se denomina prueba de independencia, y el proceso de distribución puede presentarse en forma de tablas de contingencia, por lo que algunas personas llaman a este análisis análisis de contingencia.

Tabla de contingencia: es una tabla de distribución de frecuencia que clasifica de forma cruzada más de dos variables. Dado que cada variable en la tabla de contingencia puede tener dos o más categorías, la tabla de contingencia tendrá muchas formas. Se puede considerar que la categoría de variables horizontales (filas) se considera R, y la categoría de variables verticales (columnas) se considera C, de modo que cada tabla de contingencia específica se puede llamar una R \ times Ctabla de contingencia.

A continuación se muestra  2 \ por 2 la tabla de contingencia. 

 La siguiente tabla se llama  3 \ por 3 tabla de contingencia.

La fila de la tabla es la variable de origen, que se divide en tres categorías: regiones A, B y C. La columna de la tabla es una variable de grado de producto, que también se divide en tres categorías: productos de primer grado, productos de segundo grado y productos de tercer grado. Por lo tanto, la tabla anterior es una  3 \ por 3 tabla de contingencia, y cada dato en la tabla refleja la información sobre el origen y el nivel del producto.

La prueba de independencia consiste en analizar si las variables de fila y columna en la tabla de contingencia son independientes entre sí.

Preguntas de ejemplo:

Una materia prima proviene de tres regiones diferentes, y la calidad de las materias primas se divide en tres grados diferentes. Seleccione al azar 500 piezas de este lote de materias primas para su inspección. Los resultados se muestran en la tabla anterior. Es necesario verificar si existe una dependencia entre cada región y la calidad de la materia prima. ( \ alpha = 0.05)

Resolver:

H_ {0}: El área y el nivel de materia prima son independientes (no hay relación de dependencia)

H_ {1}: Independencia entre regiones y niveles de materia prima (existe dependencia)

La clave para el análisis aquí es obtener el valor esperado.

En la primera fila de la tabla, el total del área A es 140, y 140/500 se usa como el valor estimado de la proporción de materias primas en el área A.

En la primera columna de la tabla, el total de las materias primas primarias es 162, y 162/500 se usa como el valor estimado de la relación de materia prima primaria.

Si la región y el nivel de materia prima son independientes, puede usar la siguiente fórmula para estimar la proporción esperada en la primera unidad (región A, nivel 1).

Orden: la A = unidad de muestra proviene del incidente en el área A

      B = La unidad de muestra pertenece al incidente de materias primas de primera clase.

De acuerdo con la fórmula de multiplicación de probabilidad independiente, la primera celda se escribe como:

 P \ left (cell_1 \ right) = P \ left (AB \ right) = P \ left (A \ right) P \ left (B \ right) = \ left (\ frac {140} {500} \ right) \ left (\ frac {162} {500} \ right) = 0.09072

0.09072 es la relación esperada en la primera unidad, y el valor de expectativa de frecuencia correspondiente es:

0.09072 \ times 500 = 45.36

En general, la siguiente fórmula se puede usar para calcular el valor esperado de la frecuencia en cualquier unidad:

f_ {e} = \ frac {RT} {n} \ times \ frac {CT} {n} \ times n = \ frac {RT \ times CT} {n}

En la fórmula, f_ {e} es el valor de frecuencia esperado en la unidad dada; RT es el total de la fila donde se encuentra la unidad dada; CT es el total de la columna donde se encuentra la unidad dada; n es el número total de observaciones, es decir, el tamaño de la muestra.

Calcular en función de los datos de la tabla anterior:

Ok Columna f_ {o} f_ {e} f_ {o} - f_ {e} \ left (f_ {o} -f_ {e} \ right) ^ {2} \ left (f_ {o} -f_ {e} \ right) ^ {2} / f_ {e}
1 1 52 45,36 6.64 44.09 0,97
1 2 64 52,64 11,36 129.05 2,45
1 3 24 42,00 -18,00 324,00 7.71
2 1 60 60 55,40 4.60 21,16 0,38
2 2 59 64,30 -5,30 28,09 0,44
2 3 52 51,30 0,70 0,49 0,01
3 1 50 61,24 -11,24 126,34 2,06
3 2 sesenta y cinco 71,06 -6,06 36,72 0,52
3 3 74 56,70 17.30 299,29 5.28
            19,82

\ chi ^ {2} Los grados de libertad son:\ left (R-1 \ right) \ left (C-1 \ right) = 4

Orden: \ alpha = 0.05busque la tabla y sepa:\ chi _ {0.05} ^ {2} \ left (4 \ right) = 9.488

Por  \ chi ^ {2}> \ chi _ {0.05} ^ {2} \ left (4 \ right)eso, es rechazado  H_ {0}y aceptado   H_ {1}, es decir, existe una relación de dependencia entre la región y el grado de materia prima, y ​​la calidad de la materia prima se ve afectada por la región.

Nota: Instrucciones de cálculo para grados de libertad:

La fórmula de cálculo es: grados de libertad = (número de filas -1) (número de columnas -1) = (R-1) (C-1)

\ chi ^ {2} Principio de cálculo de grados de libertad en la inspección. El grado de libertad es el número de datos que se pueden tomar libremente. Se calcula utilizando la fórmula del grado de libertad = (número de filas -1) (número de columnas -1) = (R-1) (C-1). La razón de esto puede ilustrarse con el siguiente ejemplo.

Supongamos que tenemos una  3 \ por 4 tabla de contingencia

  C1 C2 C3 C4 Total
R1 * * RT {_ {1}}
R2 * * RT {_ {2}}
R3 * * * * * * 0 0 RT {_ {3}}
Total CT {_ {1}} CT {_ {2}} CT {_ {3}} CT {_ {4}}  

Descripción:

  •  √ Datos que se pueden tomar libremente
  • * Y 0 indica datos que no se pueden tomar libremente

Primero observe la primera fila de esta tabla. En el RT {_ {1}} caso de que se haya determinado el total de las filas  , solo hay 3 datos que se pueden valorar libremente en esta fila (suponiendo que los primeros 3 se asuman aquí), indicados por √, el último no puede ser libremente Está representado por *; de manera similar, en la segunda fila, cuando RT {_ {2}} se ha determinado el total de la fila  , solo hay 3 datos que pueden valorarse libremente en esta fila, por lo que los cuartos datos que no pueden valorarse libremente también están representados por *. En la tercera línea, los primeros datos (R3, C1) no pueden valorarse libremente. Del mismo modo, los datos segundo y tercero en la tercera línea no pueden valorarse libremente, por lo que se utilizan los primeros tres datos en esta línea * Dijo. Los cuartos datos en la tercera fila no se pueden valorar libremente. Está representado por 0, porque no importa de la fila o columna, los datos anteriores no se pueden valorar libremente (lo que significa que el valor se ha determinado). Cuando se determina el total de la columna, este valor no se puede seleccionar libremente. La tabla anterior es una  3 \ por 4 tabla de contingencia con 6 grados de libertad, a saber:

Grados de libertad = (R-1) (C-1) = (3-1) (4-1) = 6


Medidas relacionadas en tablas de contingencia

La medición de la correlación entre dos variables se expresa principalmente por el coeficiente de correlación. Las variables en la tabla de contingencia suelen ser variables categóricas, que representan las diferentes categorías de calidad del objeto de investigación. Por lo tanto, la correlación entre dichos datos clasificados se puede llamar correlación de calidad. Los coeficientes de correlación de calidad utilizados con frecuencia son los siguientes:

\ varphi Coeficiente de correlación

Coeficiente de correlación en tándem

Coeficiente de correlación V

Análisis numérico

Problemas a los que se debe prestar atención en el análisis de contingencias

Indicador de estado

\ chi ^ {2} Criterio de expectativa de distribución

(Actualizando)

 

 

Publicado 646 artículos originales · elogiado 198 · 690,000 visitas

Supongo que te gusta

Origin blog.csdn.net/seagal890/article/details/105477623
Recomendado
Clasificación