[Notas de estadística] Correlación y tres coeficientes de correlación en estadística

Correlación y tres coeficientes de correlación en estadística

La correlación es una relación no determinista, y el coeficiente de correlación es la cantidad de correlación lineal entre las variables estudiadas.

Debido a los diferentes objetos de investigación, el coeficiente de correlación tiene las siguientes definiciones.

Coeficiente de correlación simple: también llamado coeficiente de correlación o coeficiente de correlación lineal, generalmente expresado por la letra r, usado para medir la relación lineal entre dos variables.

Coeficiente de correlación complejo: también llamado coeficiente de correlación múltiple. La correlación compleja se refiere a la correlación entre la variable dependiente y múltiples variables independientes. Por ejemplo, existe una correlación compleja entre la demanda estacional de un producto y su nivel de precios, el nivel de ingresos de los empleados y otros fenómenos.

Coeficiente de correlación típico: primero realice un análisis de componentes principales de los grupos originales de variables para obtener un nuevo índice integral de relación lineal, y luego estudie la correlación entre los grupos originales de variables a través del coeficiente de correlación lineal entre los índices integrales.

El análisis de correlación es la descripción y la medición de la relación lineal entre dos variables. Los problemas a resolver incluyen:

¿Hay relaciones entre variables?
Si hay una relación, ¿cuál es la relación entre ellos?
¿Qué tan fuerte es la relación entre variables?
¿Puede la relación entre las variables reflejadas en la muestra representar la relación entre las variables generales?
Para resolver estos problemas, hay dos supuestos principales para el análisis general:

Primero: las dos variables están relacionadas linealmente;

Segundo: ambas variables son variables aleatorias;

Determine la existencia de la correlación, la forma y dirección de la correlación y la cercanía de la correlación. El método principal es dibujar gráficos de correlación y calcular coeficientes de correlación.
1) Tabla de correlación
Antes de compilar la tabla de correlación, primero debemos obtener una serie de datos de valor de marca emparejado a través de la investigación real como los datos originales del análisis de correlación.
Clasificación de tablas relacionadas: tablas relacionadas simples y tablas relacionadas de grupo. Tabla relacionada con la agrupación univariante: las variables independientes se agrupan y cuentan, y las variables dependientes correspondientes no se agrupan, solo se calcula el valor promedio; las características de esta tabla: simplifican los datos largos y reflejan la correlación entre las dos variables más claramente. Tabla de correlación de agrupación bivariada: una tabla de correlación hecha agrupando variables independientes y dependientes.Esta tabla es similar a un tablero de ajedrez, por lo que también se llama tabla de correlación de tablero de ajedrez.
2) El diagrama de correlación
utiliza el primer cuadrante del sistema de coordenadas rectangular, coloca la variable independiente en el eje horizontal y la variable dependiente en el eje vertical, y traza los valores de las variables correspondientes a las dos variables en forma de puntos de coordenadas para indicar los puntos relevantes. Gráfico de distribución. El gráfico de correlación se llama visualmente un diagrama de dispersión de correlación. Los signos del factor se dividen en grupos y los signos del resultado se expresan como promedios grupales. El diagrama de correlación dibujado es una polilínea, que también se denomina curva de correlación.
3) Coeficiente de correlación
1. El coeficiente de correlación se calcula de acuerdo con el método de diferencia de producto, que también se basa en la dispersión entre las dos variables y sus respectivos promedios, y la correlación entre las dos variables se refleja multiplicando las dos dispersiones; concéntrese en el lineal simple Coeficiente de correlación.
2. Determine la expresión matemática de la correlación.
3. Determine el grado de error en el valor estimado de la variable dependiente.

Al realizar el análisis de correlación, primero debe dibujar un diagrama de dispersión para determinar la relación entre las variables. Si se trata de una relación lineal, puede usar el coeficiente de correlación para medir la fuerza de la relación entre las dos variables y luego realizar una prueba significativa sobre el coeficiente de correlación Determinar si la relación reflejada por la muestra representa la relación general entre las dos variables.

Según el diagrama de dispersión, cuando la variable independiente toma un cierto valor, la variable dependiente corresponde a una distribución de probabilidad Si la distribución de probabilidad de todos los valores de la variable independiente es la misma, significa que la variable dependiente y la variable independiente no están relacionadas. Por el contrario, si el valor de la variable independiente es diferente y la distribución de la variable dependiente también es diferente, significa que existe una correlación entre las dos.

El diagrama de dispersión puede determinar si existe una correlación entre las dos variables y describir aproximadamente la relación entre las variables, pero el diagrama de dispersión no puede reflejar con precisión la fuerza de la relación entre las variables. Por lo tanto, para medir con precisión la fuerza de la relación entre las dos variables, es necesario calcular el coeficiente de correlación.

El coeficiente de correlación (coeficiente de correlación) es una medida estadística de la fuerza de la relación lineal entre dos variables calculadas a partir de los datos de la muestra.

Si el coeficiente de correlación se calcula en función de todos los datos generales, se llama coeficiente de correlación general y se registra como: $\ rho$

Si se calcula en función de los datos de la muestra, se llama coeficiente de correlación de la muestra y se escribe como: $r$

La fórmula de cálculo del coeficiente de correlación de la muestra es:

$r = \ frac {n \ sum xy - \ sum x \ sum y} {\ sqrt {n \ sum x ^ {2} - \ left (\ sum x \ right) ^ {2}} \ times \ sqrt {n \ sum y ^ {2} - \ left (\ sum y \ right) ^ {2}}}$

El coeficiente de correlación calculado de acuerdo con la fórmula anterior también se denomina coeficiente de correlación lineal (coeficiente de correlación lineal) o coeficiente de correlación de Pearson ( coeficiente de correlación de Pearson)

En general, se desconoce el coeficiente de correlación general, y el coeficiente de correlación de la muestra generalmente se usa como una estimación aproximada de.

Sin embargo, debido a que se calcula en base a los datos de la muestra, se verá afectado por las fluctuaciones del muestreo. Como la muestra tomada es diferente, el valor de también es diferente, por lo que es una variable aleatoria. ¿Puede explicar el grado general de correlación basado en el coeficiente de correlación de la muestra? Esto debe tener en cuenta la fiabilidad del coeficiente de correlación de la muestra, que es realizar una prueba de significación.

El propósito del análisis de correlación: medir la fuerza de la relación entre variables.

Herramientas utilizadas: coeficiente de correlación

Coeficiente de correlación de Pearson

El coeficiente de correlación de Pearson (coeficiente de correlación de Pearson) se usa para medir si dos conjuntos de datos están en una línea, se usa para medir la relación lineal entre las variables de distancia fija.

Tales como medir la correlación lineal entre el ingreso nacional y los depósitos de ahorro de los residentes, altura y peso, puntajes de secundaria y puntajes de exámenes de ingreso a la universidad y otras variables. Cuando ambas variables son variables continuas normales, y existe una relación lineal entre las dos, la correlación entre las dos variables se expresa mediante el coeficiente de correlación de diferencia de producto, que incluye principalmente el coeficiente de correlación simple de Pearson.

Condiciones aplicables:

El tamaño de la muestra es mayor o igual a 30, para garantizar que los datos calculados sean representativos, y el coeficiente de correlación de diferencia de producto calculado puede explicar efectivamente la correlación entre las dos variables.

Las poblaciones de las dos variables están normalmente distribuidas, al menos una distribución unimodal cercana a la normal.

Ambas variables son datos continuos de la medición.

La correlación entre las dos variables es lineal.

Excluir la influencia de los factores de covarianza.

Calcular el análisis de correlación entre variables continuas o variables medidas a intervalos iguales .

Coeficiente de correlación de Spearman

En estadística, el coeficiente de correlación de rango de Spearman llamado Charles Spearman es el coeficiente de correlación de Spearman. A menudo se representa con la letra griega ρ. Es un indicador no paramétrico que mide la dependencia de dos variables. Utiliza ecuaciones monótonas para evaluar la correlación de dos variables estadísticas. Si no hay valores duplicados en los datos, y cuando las dos variables están correlacionadas de forma completamente monótona, el coeficiente de correlación de Spearman es +1 o −1.

Condiciones aplicables:

Solo hay dos variables, y ambas son variables secuenciales (variables de clasificación), o una columna de datos son datos variables secuenciales, y la otra columna de datos son datos variables continuos.

Es adecuado para describir la situación relacionada de datos de nombre y datos de secuencia.

Los datos de dos observaciones de variables continuas, al menos una columna de datos se evaluaron aproximadamente por métodos de no medición. Si se utiliza el método de análisis de trabajo, el evaluador solo puede hacer una evaluación aproximada basada en un determinado estándar y basándose en su propia experiencia.

Como se puede ver en las condiciones de uso de la correlación de rango de Spearman, no está limitado por el tamaño de la muestra, la forma de distribución variable y si los datos tienen condiciones de continuidad. Sin embargo, la correlación de nivel de Spearman necesita convertir datos continuos en datos secuenciales, lo que perderá la información original de los datos, y no hay precisión relacionada con la diferencia del producto. Por lo tanto, cuando los datos cumplan las condiciones de uso relacionadas con la diferencia del producto, no use la correlación de nivel para el cálculo.

El coeficiente de correlación de Spearman se define como el coeficiente de correlación de Pearson entre las variables de grado. Para muestras con tamaño de muestra n, n los datos originales se convierten en datos de grado, y el coeficiente de correlación ρ es:

En aplicaciones prácticas, los enlaces entre variables son irrelevantes, por lo que ρ puede calcularse en pasos simples. La diferencia entre los niveles de las dos variables que se observan, entonces ρ es

La correlación de rango de Spearman es un método para estudiar la correlación entre dos variables basadas en datos de rango. Se calcula en función de la diferencia entre el número de pares de dos pares de niveles, por lo que también se denomina "método de diferencia de nivel".

La correlación de rango de Spearman no requiere coeficientes de correlación de producto estrictos para las condiciones de los datos, siempre que los valores de observación de las dos variables sean datos de evaluación de rango emparejados, o los datos de rango convertidos de los datos de observación de variables continuas, independientemente de las dos variables. El patrón de distribución general y el tamaño de la muestra pueden estudiarse mediante la correlación de rango de Spearman.

El coeficiente de correlación de rango de Spearman refleja la cercanía de la relación entre los dos conjuntos de variables. Es lo $r$ mismo que el coeficiente de correlación y toma un valor entre -1 y + 1. La diferencia es que se calcula sobre la base del rango.

Vamos a ilustrar con un ejemplo: una fábrica realizó un examen de los negocios de los trabajadores. Para estudiar si existe una conexión entre los resultados del examen y la producción mensual, si una muestra se selecciona al azar, los resultados del examen y las cifras de producción son las siguientes:

Se puede ver en las figuras de la tabla que cuanto mayor es el puntaje de la prueba del trabajador, mayor es el rendimiento y el grado de conexión entre los dos es muy consistente, pero el coeficiente de correlación r = 0.676 no es demasiado alto, porque son La relación entre ellos no es lineal.Si se transforman en calificaciones de acuerdo con los puntajes de las pruebas y los niveles de salida (consulte las columnas 3 y 4 de la tabla anterior), el coeficiente de correlación de calificaciones entre ellos se puede calcular como 1. Para calcular el coeficiente de correlación de nivel, puede usar la fórmula del coeficiente de correlación original después de transformar los datos en un nivel, o puede calcular la diferencia de nivel d i de cada par de muestras , y luego usar la siguiente fórmula para calcular:

　　 $\ rho = 1- \ frac {6 \ sum d_i ^ 2} {n ^ 3-n}$

En el ejemplo ilustrado desde exactamente el mismo nivel en todo D I = 0, de modo que r = 1. El coeficiente de correlación de rango es el mismo que el coeficiente de correlación habitual. Está relacionado con el tamaño de la muestra. Especialmente cuando el tamaño de la muestra es relativamente pequeño, el grado de variación es grande. Igual

Coeficiente de correlación de rango de Kendall

Definición del coeficiente de Kendall: n objetos estadísticos similares se ordenan de acuerdo con atributos específicos, y otros atributos generalmente están fuera de orden. La misma secuencia de ( pares concordantes ) y de los isobáricas ( pares discordantes definidos por la relación) de la diferencia entre el número total de (n * (n-1) / 2) es de Kendall (Kendall) coeficientes.

Si la consistencia entre las dos clasificaciones es perfecta (es decir, las dos clasificaciones son iguales), el valor del coeficiente es 1.

Si el desacuerdo entre las dos clasificaciones es perfecto (es decir, una clasificación es opuesta a la otra clasificación), el valor del coeficiente es -1.

Para todos los demás arreglos, el valor está entre -1 y 1, y un aumento en el valor significa un aumento en la consistencia entre las clasificaciones. Si la clasificación es completamente independiente, el valor promedio del coeficiente es 0.

El coeficiente de Kendall-tau se define:

$\ tau = \ frac {2P} {\ frac {1} {2} {n (n-1)}} - 1 = \ frac {4P} {n (n-1)} - 1$

Donde n es el número de elementos y P es la suma de los elementos clasificados por dos clasificaciones después de un elemento dado entre todos los elementos.

P también se puede interpretar como el número de pares de concordancia. El denominador en la definición de τ puede interpretarse como el número total de pares de elementos. Por lo tanto, un valor alto de P significa que la mayoría de los pares son consistentes, lo que indica que las dos clasificaciones son consistentes. Tenga en cuenta que el par enlazado no se considera armonioso o discordante. Si hay un gran número de conexiones, el número total de pares debe ajustarse en consecuencia (en el denominador de la expresión τ).

Supongamos que clasificamos un grupo de 8 personas por altura y peso, una persona es la más alta, la tercera es la misma, y así sucesivamente:

Persona	UNA	si	C	re	mi	F	sol	H
Clasificación por altura	1	2	3	4 4	5 5	6 6	7 7	8
Clasificación por peso	3	4 4	1	2	5 5	7 7	8	6 6

Vemos una cierta relación entre estos dos rankings, pero esta relación está lejos de ser perfecta. Podemos usar el coeficiente de Kendall-tau para medir objetivamente el grado de correspondencia.

Tenga en cuenta que en la clasificación de peso anterior, hay otros siete elementos a la derecha de la primera entrada 3 (4,1,2,5,7,8,6). En otras clasificaciones, ¿cuántos elementos hay a la derecha de 3?

En la clasificación de altura, los elementos a la derecha de 3 son: 4,5,6,7,8, por lo que en las dos clasificaciones, los elementos a la derecha de 3 son 5 (son 4,5,6,7,8), entonces La contribución de la entrada a P es 5.

Pasando a la segunda entrada 4, vemos que hay seis elementos a la derecha de la misma. Entre estos elementos, el elemento a la derecha de 4 en otras clasificaciones es 4 (5, 6, 7, 8), por lo que la contribución a P es 4. Continuar de esta manera, encontramos

P = 5 + 4 + 5 + 4 + 3 + 1 + 0 + 0 = 22.

Por lo tanto: $\ tau = \ frac {88} {56} -1 = \ frac {44} {28} -1 = 0.57$ .

Este resultado muestra que, como se esperaba, existe una fuerte consistencia entre las tablas de clasificación.

El coeficiente de correlación de Kendall es un estadístico de medida de la correlación entre dos variables ordenadas o dos variables de rango, por lo que también pertenece a la categoría de estadísticas no paramétricas. La diferencia con Spearman es que es necesario ordenar ciertos datos de comparación, y la velocidad de cálculo es más rápida que Spearman en el caso ordenado.

El índice utilizado para reflejar la correlación de las variables categóricas es aplicable al caso en que ambas variables categóricas están ordenadas .

Realice pruebas de correlación no paramétricas en variables ordenadas relacionadas.

Calcule el coeficiente de correlación de rango de Kendall, adecuado para variables ordenadas o datos igualmente espaciados que no satisfacen el supuesto de distribución normal.

Si el análisis de correlación de rango de Kendall se usa de manera inapropiada, se puede concluir que el coeficiente de correlación es relativamente pequeño.

¿Qué es el coeficiente de correlación de rango?

En aplicaciones prácticas, a veces los datos originales obtenidos no tienen un rendimiento de datos específico y solo se pueden usar calificaciones para describir ciertos fenómenos. Para analizar la correlación entre fenómenos, solo se pueden usar coeficientes de correlación de calificación.

El coeficiente de correlación de rango también se denomina " coeficiente de correlación de rango ", que es un índice de análisis estadístico que refleja el grado de correlación de rango. Los métodos de análisis de correlación de rango comúnmente utilizados incluyen la correlación de rango de Spearman y la correlación de rango de Kendall.

Pasos de cálculo del coeficiente de correlación de rango

1. Numere el rendimiento específico de la marca de cantidad y la marca de calidad en orden de grado.

2. Encuentre la diferencia entre cada par de números de grado de los dos signos en orden.

3. Calcule el coeficiente de correlación de la siguiente manera:

$r_s = 1- \ frac {6 \ sum d_i ^ 2} {n (n ^ 2-1)}$

Entre ellos: el coeficiente de correlación de rango se registra como r s , d i es la diferencia entre los rangos de cada par de muestras de las dos variables, y n es el tamaño de la muestra.

El coeficiente de correlación de nivel es el mismo que el coeficiente de correlación, que varía de -1 a +1. Rs es positivo para correlación positiva, rs es negativo para correlación negativa y rs es igual a cero para correlación cero. La diferencia es que se calcula en función del nivel Más adecuado para reflejar la correlación de las variables de secuencia.

¿Cuáles son las similitudes y diferencias entre los tres métodos de análisis de correlación de Pearson, Kendall y Spearman?

Cuando hay una correlación lineal entre dos variables continuas, se usa el coeficiente de correlación de diferencia de producto de Pearson , y cuando no se cumplen las condiciones aplicables del análisis de correlación de diferencia de producto, se usa el coeficiente de correlación de rango de Spearman para describir.

El coeficiente de correlación de Spearman, también conocido como coeficiente de correlación de rango, utiliza el tamaño de rango de dos variables para el análisis de correlación lineal. No requiere la distribución de variables originales. Es un método estadístico no paramétrico y tiene un rango de aplicación más amplio. Para obediencia Pearson datos de coeficiente de correlación también se pueden calcular el coeficiente de correlación de Spearman, pero el poder estadístico para ser más bajo. Pearson coeficiente de correlación calculado se puede aplicar completamente Spearman coeficiente de correlación fórmula de cálculo, pero la fórmula de X e Y puede ser sustituido con el rango correspondiente.

Cuando las dos variables no cumplen con el supuesto de distribución normal bivariada, se necesita la correlación de rango de Spearman para describir los cambios mutuos entre las variables.

Coeficiente de correlación de rango tau-b de Kendall: un indicador utilizado para reflejar la correlación de variables categóricas. Es aplicable al caso en que ambas variables categóricas están ordenadas. Realice una prueba de correlación no paramétrica en las variables ordenadas relacionadas; el rango de valores está entre -1-1, esta prueba es adecuada para tablas cuadradas; calcule el coeficiente de correlación de Pearson de distancia del producto , se pueden usar variables continuas; calcule el coeficiente de correlación de rango de Spearman, Es adecuado para datos uniformemente espaciados de variables ordenadas o no cumple con el supuesto de distribución normal; Calcule el coeficiente de correlación de rango de Kendall, adecuado para datos igualmente espaciados de variables ordenadas o no cumple con el supuesto de distribución normal.

Calcule el coeficiente de correlación: cuando los datos no obedecen a la distribución normal bivariada o se desconoce la distribución general, o los datos originales se expresan en grados, se debe utilizar la correlación de Spencer o Kendall.

Coronel Mason

Publicado 646 artículos originales · elogiado 198 · 690,000 visitas

Sus tablero de mensajes preocupaciones