Concepto de matriz de covarianza (fácil de entender)

1. Conceptos básicos de estadística.

Los conceptos más básicos en estadística son la media muestral, la varianza y la desviación estándar. Primero, damos un conjunto de n muestras. Las fórmulas para estos conceptos se dan a continuación:

Media:clip_image002

Desviación estándar:imagen

Varianza:imagen

El valor medio describe el punto medio del conjunto de muestra, que nos dice que la información es limitada, y la desviación estándar describe la distancia promedio entre cada punto de muestra del conjunto de muestra y el valor medio.

Tome estos dos conjuntos como ejemplo, [0, 8, 12, 20] y [8, 9, 11, 12], la media de ambos conjuntos es 10, pero obviamente la diferencia entre los dos conjuntos es muy grande, el cálculo La desviación estándar de los dos es 8.3 y la última es 1.8. Obviamente, esta última está más concentrada, por lo que la desviación estándar es menor. La desviación estándar describe esta "distribución". La razón para dividir entre n-1 en lugar de n es porque nos permite aproximar mejor la desviación estándar de la población con un conjunto de muestra más pequeño, que es la llamada "estimación imparcial" en estadística. La varianza es solo el cuadrado de la desviación estándar.

 

Segundo, ¿por qué necesitas covarianza?

La desviación estándar y la varianza generalmente se usan para describir datos unidimensionales, pero en la vida real a menudo nos encontramos con conjuntos de datos que contienen datos multidimensionales. Lo más simple es que cuando vas a la escuela, tienes que contar los puntajes de los exámenes de múltiples materias. Ante tal conjunto de datos, por supuesto, podemos calcular la varianza de forma independiente para cada dimensión, pero por lo general todavía queremos saber más, por ejemplo, si existe alguna conexión entre la lascivia de un niño y su popularidad con las niñas. La covarianza es una estadística utilizada para medir la relación entre dos variables aleatorias. Podemos seguir la definición de varianza:

        clip_image002 [6]

Para medir el grado en que cada dimensión se desvía de su media, la covarianza se puede definir de la siguiente manera:

        clip_image002 [8]

  ¿Cuál es el significado del resultado de la covarianza? Si el resultado es positivo, significa que los dos están positivamente correlacionados (la covarianza puede conducir a la definición de "coeficiente de correlación"), es decir, cuanto más descuidada es una persona, más popular es la niña. Si el resultado es negativo, significa que los dos están correlacionados negativamente, y cuanto más traviesa sea la niña, más molesta será. Si es 0, no hay relación entre los dos, no hay conexión entre la lujuria y el gusto, que es estadísticamente "independiente".

También podemos ver algunas propiedades obvias de la definición de covarianza, tales como:

clip_image002 [10]

clip_image002 [12]

 

Tercero, la matriz de covarianza.

Los problemas intratables y populares mencionados anteriormente son problemas bidimensionales típicos, y la covarianza solo puede tratar problemas bidimensionales. Si el número de dimensiones aumenta, es necesario calcular múltiples covarianzas, como conjuntos de datos n-dimensionales. Calcule clip_image002 [16]una covarianza, luego, naturalmente, pensaremos en usar una matriz para organizar estos datos. Dada la definición de la matriz de covarianza:

                   clip_image002 [18]

Esta definición aún es fácil de entender. Podemos dar un ejemplo tridimensional. Suponiendo que el conjunto de datos tiene tres dimensiones, la matriz de covarianza es:

                  clip_image002 [20]

Se puede ver que la matriz de covarianza es una matriz simétrica, y la diagonal es la varianza de cada dimensión.

 

Cuarto, el combate real de covarianza de Matlab

Debe quedar claro que la matriz de covarianza calcula la covarianza entre diferentes dimensiones, no entre diferentes muestras. La siguiente demostración utilizará Matlab: para explicar el principio de cálculo, la función cov de Matlab no se llama directamente:

Primero, genere aleatoriamente una matriz entera de dimensión 10 * 3 como el conjunto de muestras, 10 es el número de muestras y 3 es la dimensión de la muestra.

                                            wps_clip_image-15418

Figura 1 Uso de Matlab para generar un conjunto de muestra

Según la fórmula, el cálculo de la covarianza requiere el cálculo de la media. En la sección anterior se enfatizó que la matriz de covarianza es para calcular la covarianza entre diferentes dimensiones. Tenga esto en cuenta en todo momento. Cada fila de la matriz de muestra es una muestra, y cada columna es una dimensión, por lo que debemos calcular la media por columna. Para conveniencia de la descripción, primero asignamos los datos de tres dimensiones:

wps_clip_image-17278

Figura 2 Asignación de datos en tres dimensiones.

Calcule la covarianza de dim1 y dim2, dim1 y dim3, dim2 y dim3:

                                wps_clip_image-19087

Figura 3 Cálculo de tres covarianzas

Los elementos en la diagonal de la matriz de covarianza son las variaciones de cada dimensión. A continuación calculamos estas variaciones a su vez:

                              wps_clip_image-20207

Figura 4 Calcular la varianza en la diagonal

De esta manera, tenemos todos los datos necesarios para calcular la matriz de covarianza, podemos llamar a la función cov de Matlab para obtener la matriz de covarianza directamente:

                                          wps_clip_image-25729

Figura 5 Use la función cov de Matlab para calcular directamente la matriz de covarianza de la muestra

El resultado del cálculo es exactamente el mismo que el resultado después de que los datos anteriores se llenan en la matriz.

 

Actualización: de repente descubrí hoy que la matriz de covarianza original también se puede calcular de esta manera. Primero, la matriz de muestra está centrada, es decir, el valor promedio de cada dimensión se resta de cada dimensión, de modo que el valor promedio de cada dimensión es 0, y luego la nueva llegada se usa directamente. La matriz de la muestra se multiplica por su transposición y luego se divide por (N-1). De hecho, este método también se deriva del canal de fórmulas anterior, pero no es muy intuitivo de entender, ¡pero todavía se usa comúnmente al derivar fórmulas abstractas! La implementación del código de Matlab también se proporciona:

X = MySample-repmat (mean (MySample), 10,1);% Centralice la matriz de muestra para que el valor promedio de cada dimensión sea 0
C = (X '* X) ./ (tamaño (X, 1) -1);
resumir
la clave para entender la matriz de covarianza es que se calcula a tener en cuenta es la covarianza entre las diferentes dimensiones, en lugar de entre las diferentes muestras, obtener una matriz de muestra, en primer lugar queremos aclarar que su partido Una muestra sigue siendo una dimensión, y todo el proceso de cálculo en el corazón es claro, por lo que no se confundirá ~

 

V. Resumen

La clave para comprender la matriz de covarianza es recordar que su cálculo es la covarianza entre diferentes dimensiones, no entre diferentes muestras. Cuando obtiene una matriz de muestra, lo primero que debe saber es si una fila es una muestra o una dimensión. Sé en mi corazón que todo el proceso de cálculo fluirá por la corriente, por lo que no me confundiré.

 

 

Dirección original:

http://pinkyjie.com/2010/08/31/covariance/

Supongo que te gusta

Origin www.cnblogs.com/xwh-blogs/p/12678547.html
Recomendado
Clasificación