(8) Análisis de datos de clasificación
Primero piensa en el problema:
1. ¿Por qué deberían clasificarse los datos? ¿Cómo clasificar los datos?
2. Después de clasificar los datos, ¿cómo analizar los datos clasificados?
Clasificación de datos
Los resultados de las variables categóricas aparecen como categorías, por ejemplo: las categorías de género (masculino, femenino)
se miden con símbolos o códigos numéricos
mediante clasificación o escala de orden
- ¿Fumas? 1. Sí; 2. No
- ¿Está de acuerdo o en desacuerdo con este plan de reforma? 1. A favor; 2. En contra
clasificación de los datos descritos y analizados mediante tabla de contingencia generalmente
disponible prueba
Estadísticas
Se puede usar para determinar el grado de correlación entre dos variables categóricas. Si utiliza la frecuencia observada (frecuencia observada) y la frecuencia esperada (frecuencia esperada), las estadísticas se pueden escribir como:
El estadístico tiene las siguientes características: primero , porque es un resumen del resultado al cuadrado; segundo, la distribución del estadístico está relacionada con el grado de libertad; finalmente, el estadístico describe la cercanía del valor observado y el valor esperado. Cuanto más cerca están los dos, es decir, cuanto más pequeño , menor es el valor calculado ; por el contrario, cuanto mayor es, mayor es el valor calculado . La prueba consiste en tomar una decisión estadística sobre si rechazar la hipótesis nula comparando el resultado calculado con el valor crítico en la distribución.
La relación entre distribución y grados de libertad se muestra en la figura anterior. La figura anterior muestra las distribuciones correspondientes cuando los grados de libertad son 1, 5 y 10, respectivamente .
Cuanto menor es el grado de libertad, más inclinada está la distribución hacia la izquierda. A medida que aumenta el grado de libertad, la asimetría de la distribución tiende a disminuir, mostrando gradualmente la simetría. A medida que el grado de libertad continúa aumentando, la distribución se acercará a una simétrica positiva Distribución estatal
Usando estadísticas, puede realizar una prueba de bondad de ajuste y una prueba de independencia en los datos clasificados.
Prueba de bondad de ajuste
La prueba de bondad de ajuste es uno de los contenidos importantes de la prueba de significación estadística que utiliza estadísticas. Calcula la frecuencia esperada de cada categoría en la variable categórica en función del estado de análisis general, la compara con la frecuencia observada de la distribución y juzga si hay una diferencia significativa entre la frecuencia esperada y la frecuencia observada, logrando así el propósito de analizar la variable categórica.
Análisis de contingencia: prueba de independencia
El análisis de dos variables categóricas se denomina prueba de independencia, y el proceso de distribución puede presentarse en forma de tablas de contingencia, por lo que algunas personas llaman a este análisis análisis de contingencia.
Tabla de contingencia: es una tabla de distribución de frecuencia que clasifica de forma cruzada más de dos variables. Dado que cada variable en la tabla de contingencia puede tener dos o más categorías, la tabla de contingencia tendrá muchas formas. Se puede considerar que la categoría de variables horizontales (filas) se considera R, y la categoría de variables verticales (columnas) se considera C, de modo que cada tabla de contingencia específica se puede llamar una tabla de contingencia.
A continuación se muestra la tabla de contingencia.
La siguiente tabla se llama tabla de contingencia.
La fila de la tabla es la variable de origen, que se divide en tres categorías: regiones A, B y C. La columna de la tabla es una variable de grado de producto, que también se divide en tres categorías: productos de primer grado, productos de segundo grado y productos de tercer grado. Por lo tanto, la tabla anterior es una tabla de contingencia, y cada dato en la tabla refleja la información sobre el origen y el nivel del producto.
La prueba de independencia consiste en analizar si las variables de fila y columna en la tabla de contingencia son independientes entre sí.
Preguntas de ejemplo:
Una materia prima proviene de tres regiones diferentes, y la calidad de las materias primas se divide en tres grados diferentes. Seleccione al azar 500 piezas de este lote de materias primas para su inspección. Los resultados se muestran en la tabla anterior. Es necesario verificar si existe una dependencia entre cada región y la calidad de la materia prima. ( )
Resolver:
: El área y el nivel de materia prima son independientes (no hay relación de dependencia)
: Independencia entre regiones y niveles de materia prima (existe dependencia)
La clave para el análisis aquí es obtener el valor esperado.
En la primera fila de la tabla, el total del área A es 140, y 140/500 se usa como el valor estimado de la proporción de materias primas en el área A.
En la primera columna de la tabla, el total de las materias primas primarias es 162, y 162/500 se usa como el valor estimado de la relación de materia prima primaria.
Si la región y el nivel de materia prima son independientes, puede usar la siguiente fórmula para estimar la proporción esperada en la primera unidad (región A, nivel 1).
Orden: la unidad de muestra proviene del incidente en el área A
La unidad de muestra pertenece al incidente de materias primas de primera clase.
De acuerdo con la fórmula de multiplicación de probabilidad independiente, la primera celda se escribe como:
0.09072 es la relación esperada en la primera unidad, y el valor de expectativa de frecuencia correspondiente es:
En general, la siguiente fórmula se puede usar para calcular el valor esperado de la frecuencia en cualquier unidad:
En la fórmula, es el valor de frecuencia esperado en la unidad dada; RT es el total de la fila donde se encuentra la unidad dada; CT es el total de la columna donde se encuentra la unidad dada; n es el número total de observaciones, es decir, el tamaño de la muestra.
Calcular en función de los datos de la tabla anterior:
Ok | Columna | |||||
---|---|---|---|---|---|---|
1 | 1 | 52 | 45,36 | 6.64 | 44.09 | 0,97 |
1 | 2 | 64 | 52,64 | 11,36 | 129.05 | 2,45 |
1 | 3 | 24 | 42,00 | -18,00 | 324,00 | 7.71 |
2 | 1 | 60 60 | 55,40 | 4.60 | 21,16 | 0,38 |
2 | 2 | 59 | 64,30 | -5,30 | 28,09 | 0,44 |
2 | 3 | 52 | 51,30 | 0,70 | 0,49 | 0,01 |
3 | 1 | 50 | 61,24 | -11,24 | 126,34 | 2,06 |
3 | 2 | sesenta y cinco | 71,06 | -6,06 | 36,72 | 0,52 |
3 | 3 | 74 | 56,70 | 17.30 | 299,29 | 5.28 |
19,82 | ||||||
Los grados de libertad son:
Orden: busque la tabla y sepa:
Por eso, es rechazado y aceptado , es decir, existe una relación de dependencia entre la región y el grado de materia prima, y la calidad de la materia prima se ve afectada por la región.
Nota: Instrucciones de cálculo para grados de libertad:
La fórmula de cálculo es: grados de libertad = (número de filas -1) (número de columnas -1) = (R-1) (C-1)
Principio de cálculo de grados de libertad en la inspección. El grado de libertad es el número de datos que se pueden tomar libremente. Se calcula utilizando la fórmula del grado de libertad = (número de filas -1) (número de columnas -1) = (R-1) (C-1). La razón de esto puede ilustrarse con el siguiente ejemplo.
Supongamos que tenemos una tabla de contingencia
C1 | C2 | C3 | C4 | Total | |
R1 | √ | √ | √ | * * | |
R2 | √ | √ | √ | * * | |
R3 | * * | * * | * * | 0 0 | |
Total |
Descripción:
- √ Datos que se pueden tomar libremente
- * Y 0 indica datos que no se pueden tomar libremente
Primero observe la primera fila de esta tabla. En el caso de que se haya determinado el total de las filas , solo hay 3 datos que se pueden valorar libremente en esta fila (suponiendo que los primeros 3 se asuman aquí), indicados por √, el último no puede ser libremente Está representado por *; de manera similar, en la segunda fila, cuando se ha determinado el total de la fila , solo hay 3 datos que pueden valorarse libremente en esta fila, por lo que los cuartos datos que no pueden valorarse libremente también están representados por *. En la tercera línea, los primeros datos (R3, C1) no pueden valorarse libremente. Del mismo modo, los datos segundo y tercero en la tercera línea no pueden valorarse libremente, por lo que se utilizan los primeros tres datos en esta línea * Dijo. Los cuartos datos en la tercera fila no se pueden valorar libremente. Está representado por 0, porque no importa de la fila o columna, los datos anteriores no se pueden valorar libremente (lo que significa que el valor se ha determinado). Cuando se determina el total de la columna, este valor no se puede seleccionar libremente. La tabla anterior es una tabla de contingencia con 6 grados de libertad, a saber:
Grados de libertad = (R-1) (C-1) = (3-1) (4-1) = 6
Medidas relacionadas en tablas de contingencia
La medición de la correlación entre dos variables se expresa principalmente por el coeficiente de correlación. Las variables en la tabla de contingencia suelen ser variables categóricas, que representan las diferentes categorías de calidad del objeto de investigación. Por lo tanto, la correlación entre dichos datos clasificados se puede llamar correlación de calidad. Los coeficientes de correlación de calidad utilizados con frecuencia son los siguientes:
Coeficiente de correlación
Coeficiente de correlación en tándem
Coeficiente de correlación V
Análisis numérico
Problemas a los que se debe prestar atención en el análisis de contingencias
Indicador de estado
Criterio de expectativa de distribución
(Actualizando)