Matriz de covarianza y matriz de coeficiente de correlación

Directorio de artículos

prefacio

Este blog presenta principalmente el conocimiento relevante de la varianza, la covarianza y el coeficiente de correlación, y luego presenta la matriz de covarianza y la matriz del coeficiente de correlación, y las explica con ejemplos relacionados.

1. Varianza, covarianza y coeficiente de correlación

En "Teoría de la probabilidad y estadística matemática", la varianza se usa para medir una sola variable aleatoria $El grado de dispersión de X$ , indicado como $D X$ , la fórmula de cálculo es la siguiente:
$\begin{aligned} DX &= E(X-EX)^2 \\[3pt] &= EX ^2 - E^2X \end{alineado}$ La expresión matemática es: $\sigma ^2(x) = \frac {1} {n-1}\sum _{i =1} ^N (x_i - \bar x)^2$

Ahora mismo方差 = 平方的期望 - 期望的平方

La covarianza se usa para medir dos variables aleatorias $X$ 和 $El grado de similitud entre Y$ , indicado como $C o v (X, Y)$ ,Defina de la siguiente manera:
$\begin{aligned} Cov(X,Y) & = E[(X - EX) \cdot(Y - EY)] \\[3pt] &= E(XY) - EX \cdot EY \end{alineado}$ Expresión matemática: $\sigma (x , y ) = \frac {1} {n-1 }\ suma _{i=1} ^N (x_i - \bar x) (y_i - \bar y)$

Desde el punto de vista de la fórmula, la covarianza es la diferencia entre dos variables y sus propias expectativas, y luego las multiplica y luego toma la expectativa del producto. Es decir, cuando el valor de una de las variables es mayor que su propia expectativa, y el valor de la otra variable también es mayor que su propia expectativa, es decir, la tendencia de cambio de las dos variables es la misma, en este momento, la covarianza entre las dos variables toma un valor positivo. Por el contrario, es decir, cuando una de las variables es mayor que su propia expectativa y la otra variable es menor que su propia expectativa, entonces la covarianza entre estas dos variables toma un valor negativo.

El coeficiente de correlación, también llamado (Pearson)coeficiente de correlación de Pearson, se utiliza para medir dos variables aleatorias $X$ 和 $El grado de correlación entre Y$ , registrado como $\rho_{XY}$ , la fórmula de cálculo es:
$\rho_{XY} = \frac {Cov(X,Y)} {\sqrt {DX} \sqrt {DY}}$ Si $\rho_{XY} >$ , significa la variable aleatoria $X$ 和 $Y$ está positivamente correlacionado,
si $\rho_{XY} < 0$ , significa la variable aleatoria $X$ 和 $Y$ está negativamente correlacionado,
si $\rho_{XY} = 0$ , significa la variable aleatoria $X$ 和 $Y$ no está correlacionado, es decir, son independientes entre sí,
si $\rho_{XY} = \pm1$ , significa variable aleatoria $X$ 和 $Y$ está relacionado linealmente;

El coeficiente de correlación también se puede considerar como una covarianza: una covarianza especial que elimina el impacto de la dimensión de las dos variables y está estandarizada.Elimina la influencia del rango de cambio de las dos variables, pero simplemente refleja el cambio de la dos variables por unidad similitud.

2. Matriz de covarianza

En escenarios reales, cuando describimos un objeto, no lo describimos solo desde una o dos dimensiones. Por ejemplo, cuando describimos el rendimiento de un modelo de red neuronal, debemos considerar el tamaño del modelo, la precisión, el tiempo de inferencia, etc. dimensión a medir. Al realizar análisis de datos multidimensionales, el grado de correlación entre las diferentes dimensiones debe (covariance matrix)describirse mediante una matriz de covarianza. El grado de correlación entre las dimensiones constituye una matriz de covarianza, y los elementos en la diagonal principal de la matriz de covarianza son La varianza de los datos a lo largo de cada dimensión.
La expresión para la matriz de covarianza es: $\sum = \begin {bmatriz} \sigma (x_1, x_1) & \dots & \sigma (x_1, x_n) \\ \vdots & \ddots & \vdots \\ \sigma (x_n, x_1) & \dots & \sigma (x_n, x_n ) ) \\ \end{matriz}$

3. Matriz de coeficientes de correlación

Como su nombre lo indica, es una matriz compuesta por coeficientes de correlación (correlation matrix), también llamada matriz de coeficientes, y el rango de valores de cada elemento de la matriz es [-1, 1].
La expresión de la matriz de coeficientes de correlación es: $\begin{alineado} C &= \begin{bmatrix} \rho(x_1, x_1) & \dots & \rho(x_1, x_n ) \\ \vdots & \ddots & \vdots \\ \rho(x_n, x_1) & \dots & \rho(x_n, x_n) \\ \end{bmatrix}\\[5pt] &= \begin{bmatrix} 1 & \puntos & \rho(x_1, x_n) \\ \vdots & \ddots & \vdots \\ \rho(x_n, x_1) & \puntos & 1 \\ \end{bmatriz} \end{alineado}$