Tres coeficientes de correlación estadística principales (pearson Pearson, spearman Spearman, kendall Kendall)

Tabla de contenido

Coeficiente de correlación de 1 persona (coeficiente de correlación de Pearson)

2 coeficiente de correlación de Spearman (coeficiente de correlación de Spearman)

3 coeficiente de correlación de Kendall (coeficiente de correlación de Kendall) 

3.1 Definición

3.2 Varios Métodos de Cálculo y Principios del Coeficiente de Kendall

3.3 Ejemplos

3.3.1 Ejemplo 1 (variable numérica)

 3.3.2 Ejemplo 2 (variables categóricas)

Implementación de 4 python


        El coeficiente de correlación de Kendall es un estadístico para variables categóricas, Pearson es un estadístico para variables de distancia y Spearman es un estadístico para variables ordinales.

Coeficiente de correlación de 1 persona (coeficiente de correlación de Pearson)

La fórmula es la siguiente:

        Concéntrese en la fórmula después del primer signo igual. El coeficiente de correlación de Pearson (ρX,Y) de dos variables (X,Y) es igual a la covarianza cov(X,Y) entre ellas dividida por el producto de sus respectivas desviaciones estándar (σX,σY).

        El denominador de la fórmula es la desviación estándar de la variable, lo que significa que al calcular el coeficiente de correlación de Pearson, la desviación estándar de la variable no puede ser 0 (el denominador no puede ser 0), es decir, el valor de cualquiera de tus dos variables no pueden ser iguales Son iguales. Si no hay cambio, no hay forma de utilizar el coeficiente de correlación de Pearson para calcular si existe una correlación entre esta variable y otra variable.

        Es como si quisiéramos estudiar la correlación entre la velocidad de carrera de las personas y los latidos del corazón. Si corres rápido, los latidos de tu corazón seguirán siendo los mismos (es decir, la desviación estándar de la variable de latidos del corazón es 0) o los latidos de tu corazón fluctuarán. una velocidad (es decir, la desviación estándar de la variable velocidad de carrera es 0), entonces no podemos juzgar si el latido del corazón está relacionado con la velocidad de carrera a través del cálculo del coeficiente de correlación de Pearson.

El coeficiente de correlación de Pearson es la relación entre la covarianza y la desviación estándar, por lo que tiene requisitos relativamente altos para los datos:

  1. Por lo general, se supone que los datos experimentales provienen de poblaciones normalmente distribuidas en pares. ¿Por qué se suele suponer que es una distribución normal? Porque después de encontrar el coeficiente de correlación de Pearson, generalmente usamos métodos como la prueba t para realizar la prueba del coeficiente de correlación de Pearson, y la prueba t se basa en la suposición de que los datos se distribuyen normalmente. 
  2. La brecha entre los datos experimentales no debe ser demasiado grande, o el coeficiente de correlación de Pearson se ve muy afectado por los valores atípicos . Por ejemplo, en el ejemplo de los latidos del corazón y la carrera de ahora, en caso de que el corazón de la persona no esté muy bien, no pueda soportarlo después de correr a cierta velocidad y tenga un ataque al corazón, entonces mediremos un latido del corazón que se desvía. del valor normal (demasiado rápido o demasiado lento), o incluso 0), si ponemos este valor para el análisis de correlación, su existencia interferirá en gran medida con los resultados del cálculo.
  3. Las observaciones de dos variables están emparejadas, y cada par de observaciones es independiente de la otra.
  4. La desviación estándar de las dos variables no es 0.

             

2 coeficiente de correlación de Spearman (coeficiente de correlación de Spearman)

        El coeficiente de correlación de Spearman también se denomina comúnmente coeficiente de correlación de rango de Spearman. "Rango", se puede entender que el logro es una especie de orden o clasificación, por lo que se resuelve de acuerdo a la posición de clasificación de los datos originales, esta forma de representación no tiene las restricciones a la hora de calcular el coeficiente de correlación de Pearson. Veamos su fórmula de cálculo: 

         

         El proceso de cálculo es: primero ordene los datos de las dos variables (X, Y) y luego registre la posición (X', Y') después de ordenar. El valor de (X', Y') se denomina orden de rango, y el rango La diferencia entre veces es el di en la fórmula anterior , n es el número de datos en la variable, y finalmente lo pone en la fórmula para resolver el resultado. Por ejemplo, supongamos que nuestros datos experimentales son los siguientes: 

        Llévelo a la fórmula para obtener el coeficiente de correlación de Spearman: ρs= 1-6*(1+1+1+9)/6*35=0.657

        En otras palabras, no nos importa cuánto difieren los valores específicos de las dos variables X e Y, solo necesitamos calcular la diferencia en la posición de disposición de cada uno de sus valores para encontrar el coeficiente de correlación.

        Además, incluso si el valor de la variable no cambia, no habrá una situación en la que el denominador sea 0 y no se pueda calcular como el coeficiente de Pearson . Además, incluso si hay un valor atípico, dado que el rango del valor atípico generalmente no cambia significativamente (por ejemplo, si es demasiado grande o demasiado pequeño, se clasificará primero o último), por lo que el impacto en el Spearman coeficiente de correlación también es muy pequeño!

       Dado que el coeficiente de correlación de Spearman no requiere esas condiciones de datos, el ámbito de aplicación es mucho más amplio. En el análisis de los datos de nuestros experimentos biológicos, especialmente cuando se analizan los datos de la intersección multiómica para ilustrar la correlación entre diferentes datos ómicos, se utiliza con frecuencia.

3 coeficiente de correlación de Kendall (coeficiente de correlación de Kendall) 

3.1 Definición

        El coeficiente de correlación de rango de Kendall (R) se refiere al coeficiente con n objetos estadísticos, cada objeto tiene dos atributos. Ordene todos los objetos estadísticos de acuerdo con el valor del atributo 1, sin pérdida de generalidad, suponga que la disposición de los valores del atributo 2 está fuera de orden. Sea P el logaritmo de objetos estadísticos con la misma relación de tamaño entre los dos valores de atributo.

        Definición del coeficiente de Kendall: n objetos estadísticos similares se ordenan por atributos específicos, y otros atributos generalmente están fuera de orden. La relación de la diferencia entre pares concordantes y pares discordantes al logaritmo total (n*(n-1)/2) se define como el coeficiente de Kendall.

1) Si los rangos de los dos atributos son iguales, el coeficiente es 1 y los dos atributos están positivamente correlacionados.

2) Si las clasificaciones de los dos atributos son completamente opuestas, el coeficiente es -1 y los dos atributos están negativamente correlacionados .

3) Si las clasificaciones son completamente independientes, el coeficiente es 0.

         El coeficiente de correlación de rangos de Spearman tiene requisitos menos estrictos sobre las condiciones de los datos que el coeficiente de correlación de Pearson, siempre que las observaciones de las dos variables sean datos de evaluación de rangos emparejados o datos de rangos transformados a partir de datos de observación de variables continuas , independientemente de las dos variables La forma de distribución general de , y el tamaño del tamaño de la muestra se pueden estudiar con el coeficiente de correlación de rango de Spearman.

3.2 Varios Métodos de Cálculo y Principios del Coeficiente de Kendall

 

 

3.3 Ejemplos

3.3.1 Ejemplo 1 (variable numérica)

    Supongamos que asumimos un grupo de 8 personas con alturas y pesos donde la persona A es la más alta, la tercera más pesada, etc.:

         Vemos que existe cierta correlación entre las dos clasificaciones, y la correspondencia se puede medir objetivamente utilizando el coeficiente de Kendall Head.

         Tenga en cuenta que A es el más alto, pero el rango de peso es 3, que es más pesado que los rangos de peso 4, 5, 6, 7 y 8, contribuyendo con 5 pares idénticos, a saber, AB, AE, AF, AG y AH. De la misma manera, encontramos que B, C, D, E, F, G y H aportaron 4, 5, 4, 3, 1, 0 y 0 pares de la misma secuencia respectivamente, por lo tanto, el logaritmo de la misma secuencia

           PAG  = 5 + 4 + 5 + 4 + 3 + 1 + 0 + 0 = 22.

          Logaritmo de diferente orden Q=28-22 (el logaritmo total menos el logaritmo del mismo orden es un logaritmo de diferente orden)

        Así R=((22-6)/28)=0,57. Este resultado muestra una fuerte regularidad entre las clasificaciones, como se esperaba.

 3.3.2 Ejemplo 2 (variables categóricas)

        Por ejemplo, se examinan 10 pacientes y los resultados del examen son los siguientes:

        La medida de la correlación se basa en datos, es decir, la correlación entre dos variables se puede calcular solo cuando hay datos . Convierta el género en un valor numérico como 0 y 1, y luego calcúlelo. El resultado correcto es el siguiente:

         En orden de altura:

        

Consistencia C:

         Por ejemplo, sexo 0 del paciente 1 < sexo 1 del paciente 2 y altura 130 < altura 145 del paciente 2, entonces los pacientes 1 y 2 son un par consistente, que puede interpretarse como el orden de sexo y altura de los pacientes 1 y 2. secuencia es consistente.

        De manera similar, el paciente 1 y los pacientes 10, 6, 9 y 7 pueden formar un par consistente y el logaritmo de consistencia ya es igual a 5.

        De la misma manera, el paciente 5 es compatible con los pacientes 2, 10, 6, 9 y 7, el paciente 8 es compatible con los pacientes 6, 9 y 7, el paciente 3 es compatible con el paciente 7 y el paciente 4 es compatible con el paciente 7.

        Esto suma C=15.

inconsistencia D:

        Por ejemplo, sexo 1 del paciente 2 > sexo 0 del paciente 8 y altura 145 < 156 del paciente 8, entonces los pacientes 2 y 8 son un par inconsistente.

        No seguiré con el mismo principio, de todos modos, suma D=10.

Ni consistente ni inconsistente:

         Por ejemplo, el sexo 0 del paciente 1 = el sexo 0 del paciente 5, el sexo 1 del paciente 2 = el sexo 1 del paciente 10 y el sexo y la altura de los pacientes 6 y 9 son iguales, por lo que no son consistentes ni inconsistentes.

         Entonces, mirando el principio de esta manera, es algo similar a Spearman, ambos basados ​​en el análisis del orden de las variables.

Hablemos de N3, N2, N1.

N3==45, N=número de muestra 10.

N2 y N1 son más complicados. Cada uno apunta a una variable. Por ejemplo, N2 apunta al género:

N2=, s se refiere al número de conjuntos pequeños con los mismos elementos en género, obviamente 2, el primer conjunto es 5 0s, el segundo conjunto es 5 1s, v es el número de elementos en cada conjunto Número, obviamente el número de elementos en ambos conjuntos es 5, N2=20.

N1 tiene la misma fórmula que N2, excepto que apunta a la altura. Solo hay un conjunto pequeño con el mismo elemento en la altura, y solo hay dos elementos en el conjunto, por lo que N1 = 1.

Arriba, cada sustitución, calcule el resultado en la línea.

Implementación de 4 python

import copy
import numpy as np
from scipy.stats import pearsonr
from scipy.stats import spearmanr
from scipy.stats import kendalltau


def pearson_prac(data1, data2):
    """
    皮尔逊两关系数
    :return:
    """
    # 法一
    res = np.corrcoef(data1, data2)
    print(res)
    # 返回的矩阵结果:
    # r[i][j]分别为第i组数据和第j组数据的⽪尔逊积矩相关系数:
    # r[0][0]计算的是第[0]组数组和第[0]组数据的相关系数, 也就是, 结果当然是1.
    # r[0][1]计算的是第[0]组数组和第[1]组数据的相关系数,
    # r[1][0]计算的是第[1]组数组和第[0]组数据的相关系数

    # 法二

    corr, p = pearsonr(data1, data2)
    print(corr, p, sep="\n")


def spearmanr_prac(data1, data2):
    corr, p = spearmanr(data1, data2)
    print(corr, p, sep="\n")


def kendall_prac(data1, data2):
    """
    """
    corr, p = kendalltau(data1, data2)
    print(corr, p, sep="\n")

    if abs(corr) > 0.5 and p < 0.05:
        print("trend")
    else:
        print("no-trend")


if __name__ == "__main__":
    # 两列相同的数
    data1 = np.random.randint(6, 10, 300)
    data2 = copy.deepcopy(data1)

    # 两列随机数
    # data = np.random.randint(6, 10, (300, 2))  # 生成随机数
    # data1 = data[:, 0]
    # data2 = data[:, 1]

    # 每列数字相同
    # data1 = [1] * 100
    # data2 = [2] * 100

    pearson_prac(data1, data2)
    spearmanr_prac(data1, data2)
    kendall_prac(data1, data2)


Juicio de tendencia del análisis de series temporales: puntuación

Los tres principales coeficientes de correlación de las estadísticas (pearson, spearman, kendall) - Se busca programador

Explicación detallada del coeficiente de correlación de Kendall - versión de caso - saber casi

Coeficiente de correlación de rango de Kendall

Varios métodos de cálculo y principios del coeficiente de Kendall.pdf​​​​​​​​: Youdao Cloud Notes

Supongo que te gusta

Origin blog.csdn.net/weixin_39910711/article/details/124656070
Recomendado
Clasificación