Directorio de artículos
prefacio
Este blog presenta principalmente el conocimiento relevante de la varianza, la covarianza y el coeficiente de correlación, y luego presenta la matriz de covarianza y la matriz del coeficiente de correlación, y las explica con ejemplos relacionados.
1. Varianza, covarianza y coeficiente de correlación
En "Teoría de la probabilidad y estadística matemática", la varianza se usa para medir una sola variable aleatoria XXEl grado de dispersión de X , indicado comoDX DXD X , la fórmula de cálculo es la siguiente:
DX = E ( X − EX ) 2 = EX 2 − E 2 X \begin{aligned} DX &= E(X-EX)^2 \\[3pt] &= EX ^2 - E^2X \end{alineado}D X=mi ( X−EJ )2=E X2−mi2X _ La expresión matemática es: σ 2 ( x ) = 1 norte − 1 ∑ i = 1 norte ( xi − x ˉ ) 2 \sigma ^2(x) = \frac {1} {n-1}\sum _{i =1} ^N (x_i - \bar x)^2pag2 (x)=norte−11yo = 1∑norte( Xyo−Xˉ )2
Ahora mismo
方差 = 平方的期望 - 期望的平方
La covarianza se usa para medir dos variables aleatorias XXX和 Y Y El grado de similitud entre Y , indicado comoC ov ( X , Y ) Cov(X,Y)C o v ( X ,Y ) ,Defina de la siguiente manera:
C ov ( X , Y ) = E [ ( X − EX ) ⋅ ( Y − EY ) ] = E ( XY ) − EX ⋅ EY \begin{aligned} Cov(X,Y) & = E[(X - EX) \cdot(Y - EY)] \\[3pt] &= E(XY) - EX \cdot EY \end{alineado}C o v ( X ,Y )=Y [( X−EJ )⋅( Y−E Y )]=yo ( xy ) _−EX⋅EY _ Expresión matemática: σ ( x , y ) = 1 norte − 1 ∑ i = 1 norte ( xi − x ˉ ) ( yi − y ˉ ) \sigma (x , y ) = \frac {1} {n-1 }\ suma _{i=1} ^N (x_i - \bar x) (y_i - \bar y)σ ( x ,y )=norte−11yo = 1∑norte( Xyo−Xˉ)(yyo−yˉ)
Desde el punto de vista de la fórmula, la covarianza es la diferencia entre dos variables y sus propias expectativas, y luego las multiplica y luego toma la expectativa del producto. Es decir, cuando el valor de una de las variables es mayor que su propia expectativa, y el valor de la otra variable también es mayor que su propia expectativa, es decir, la tendencia de cambio de las dos variables es la misma, en este momento, la covarianza entre las dos variables toma un valor positivo. Por el contrario, es decir, cuando una de las variables es mayor que su propia expectativa y la otra variable es menor que su propia expectativa, entonces la covarianza entre estas dos variables toma un valor negativo.
El coeficiente de correlación, también llamado (Pearson)
coeficiente de correlación de Pearson, se utiliza para medir dos variables aleatorias XXX和 Y Y El grado de correlación entre Y , registrado comoρ XY \rho_{XY}rXY _, la fórmula de cálculo es:
ρ XY = C ov ( X , Y ) DXDY \rho_{XY} = \frac {Cov(X,Y)} {\sqrt {DX} \sqrt {DY}}rXY _=D XDY _C o v ( X ,Y ) Si XY > 0 \rho_{XY} >rXY _>0 , significa la variable aleatoriaXXX和 Y Y Y está positivamente correlacionado,
siρ XY < 0 \rho_{XY} < 0rXY _<0 , significa la variable aleatoriaXXX和 Y Y Y está negativamente correlacionado,
siρ XY = 0 \rho_{XY} = 0rXY _=0 , significa la variable aleatoriaXXX和 Y Y Y no está correlacionado, es decir, son independientes entre sí,
siρ XY = ± 1 \rho_{XY} = \pm1rXY _=± 1 , significa variable aleatoriaXXX和 Y Y Y está relacionado linealmente;
El coeficiente de correlación también se puede considerar como una covarianza: una covarianza especial que elimina el impacto de la dimensión de las dos variables y está estandarizada.Elimina la influencia del rango de cambio de las dos variables, pero simplemente refleja el cambio de la dos variables por unidad similitud.
2. Matriz de covarianza
En escenarios reales, cuando describimos un objeto, no lo describimos solo desde una o dos dimensiones. Por ejemplo, cuando describimos el rendimiento de un modelo de red neuronal, debemos considerar el tamaño del modelo, la precisión, el tiempo de inferencia, etc. dimensión a medir. Al realizar análisis de datos multidimensionales, el grado de correlación entre las diferentes dimensiones debe (covariance matrix)
describirse mediante una matriz de covarianza. El grado de correlación entre las dimensiones constituye una matriz de covarianza, y los elementos en la diagonal principal de la matriz de covarianza son La varianza de los datos a lo largo de cada dimensión.
La expresión para la matriz de covarianza es: ∑ = [ σ ( x 1 , x 1 ) … σ ( x 1 , xn ) ⋮ ⋱ ⋮ σ ( xn , x 1 ) … σ ( xn , xn ) ] \sum = \begin {bmatriz} \sigma (x_1, x_1) & \dots & \sigma (x_1, x_n) \\ \vdots & \ddots & \vdots \\ \sigma (x_n, x_1) & \dots & \sigma (x_n, x_n ) ) \\ \end{matriz}∑=
s ( x1,X1)⋮s ( xn,X1)…⋱…s ( x1,Xn)⋮s ( xn,Xn)
3. Matriz de coeficientes de correlación
Como su nombre lo indica, es una matriz compuesta por coeficientes de correlación (correlation matrix)
, también llamada matriz de coeficientes, y el rango de valores de cada elemento de la matriz es [-1, 1]
.
La expresión de la matriz de coeficientes de correlación es: C = [ ρ ( x 1 , x 1 ) … ρ ( x 1 , xn ) ⋮ ⋱ ⋮ ρ ( xn , x 1 ) … ρ ( xn , xn ) ] = [ 1 … ρ ( x 1 , xn ) ⋮ ⋱ ⋮ ρ ( xn , x 1 ) … 1 ] \begin{alineado} C &= \begin{bmatrix} \rho(x_1, x_1) & \dots & \rho(x_1, x_n ) \\ \vdots & \ddots & \vdots \\ \rho(x_n, x_1) & \dots & \rho(x_n, x_n) \\ \end{bmatrix}\\[5pt] &= \begin{bmatrix} 1 & \puntos & \rho(x_1, x_n) \\ \vdots & \ddots & \vdots \\ \rho(x_n, x_1) & \puntos & 1 \\ \end{bmatriz} \end{alineado}C=
pag ( x1,X1)⋮pag ( xn,X1)…⋱…pag ( x1,Xn)⋮pag ( xn,Xn)
=
1⋮pag ( xn,X1)…⋱…pag ( x1,Xn)⋮1