prefacio

Aquí hay tres algoritmos de reducción de dimensionalidad, y primero presentamos sus respectivas características.

El análisis de componentes principales es principalmente para reducir la dimensionalidad de múltiples indicadores, y solo mantener unos pocos indicadores ;

El análisis factorial es mejor que el análisis de componentes principales, porque el análisis factorial es más fácil de explicar que el análisis de componentes principales , y no es fácil de explicar después de utilizar el análisis de componentes principales.La función del análisis factorial es la misma que la del análisis de componentes principales;

El papel del análisis de correlación canónica se siente algo limitado (en comparación con los dos algoritmos anteriores), el análisis de correlación canónica es un método estadístico multivariado para estudiar la correlación entre dos grupos de variables, que puede revelar la relación interna entre dos grupos de variables , es decir es decir, seleccione un indicador de los dos conjuntos de datos que contienen múltiples indicadores para reemplazar los datos de su propio conjunto, a fin de analizar la relación entre los dos conjuntos de datos.

El papel de la reducción de la dimensionalidad de los datos

La reducción de la dimensionalidad consiste en retener algunas de las características más importantes de los datos de alta dimensión (demasiados indicadores) , eliminar el ruido y las características sin importancia, para lograr el propósito de mejorar la velocidad de procesamiento de datos.
En la producción y aplicación reales, la reducción de la dimensionalidad puede ahorrarnos mucho tiempo y costos dentro de un cierto rango de pérdida de información. La reducción de la dimensionalidad también se ha convertido en un método de preprocesamiento de datos muy utilizado.

La reducción de la dimensionalidad tiene algunas ventajas :

Hacer que el conjunto de datos sea más fácil de usar;
Reducir la sobrecarga computacional del algoritmo;
eliminar el ruido;
que los resultados sean fáciles de entender.

1. Análisis de componentes principales (PCA)

1. Introducción

El análisis de componentes principales es un algoritmo de reducción de la dimensionalidad, que puede convertir varios indicadores en unos pocos componentes principales . Estos componentes principales son combinaciones lineales de variables originales y no están correlacionadas entre sí, lo que puede reflejar el tamaño de los datos originales. información parcial. En términos generales, cuando el problema de investigación involucra múltiples variables y existe una fuerte correlación entre las variables, podemos considerar usar el método de análisis de componentes principales para simplificar los datos.
El análisis de componentes principales es un método de análisis estadístico que divide múltiples variables en unos pocos indicadores integrales. Desde un punto de vista matemático, esta es una técnica de procesamiento de reducción de dimensionalidad.

2. Proceso de algoritmo

estandarizar
Calcule la matriz de covarianza para muestras estandarizadas
Calcular los autovalores y autovectores de R
Calcular la tasa de cotización del componente principal y la tasa de cotización acumulada
escribir los componentes principales
Análisis del significado representado por los componentes principales según los coeficientes
Utilizar los resultados de los componentes principales para análisis posteriores

1. Estandarizar

2. Calcular la matriz de covarianza de la muestra estandarizada

3. Calcular los autovalores y autovectores de R

4. Calcular la tasa de cotización del componente principal y la tasa de cotización acumulada

5. Anota los componentes principales

6. Analizar el significado que representan los componentes principales según los coeficientes

7. Utilizar los resultados de los componentes principales para análisis posteriores

3. Explicación del análisis de componentes principales

En el análisis de componentes principales, primero debemos asegurarnos de que la tasa de cotización acumulada         de los primeros componentes principales extraídos alcance un nivel alto y, en segundo lugar, debemos ser capaces de dar explicaciones que se ajusten a los antecedentes reales y al significado de estos componentes principales extraídos.
        El significado de la interpretación de los componentes principales es generalmente algo vago, no tan claro y preciso como el significado de las variables originales, que es el precio que hay que pagar en el proceso de reducción de la dimensionalidad de las variables. Por lo tanto, el número m de componentes principales extraídos debería ser significativamente menor que el número p de las variables originales (a menos que p en sí mismo sea pequeño); de lo contrario, la "ventaja" de la reducción de la dimensionalidad puede no valer la "desventaja" de que el significado de los componentes principales no es tan claro como las variables originales.
        Si existe una alta correlación entre las variables originales, la tasa de cotización acumulada de los primeros componentes principales generalmente puede alcanzar un nivel alto, es decir, la tasa de cotización acumulada en este momento suele ser más fácil de cumplir.
        La dificultad del análisis de componentes principales es principalmente poder dar una mejor explicación de los componentes principales, si uno de los componentes principales extraídos no puede ser explicado, todo el análisis de componentes principales fallará.
        El análisis de componentes principales es un método importante y de uso común para la reducción de la dimensionalidad de las variables.En pocas palabras, la aplicación exitosa de este método depende de la selección razonable de las variables originales y de la "suerte".

2. Análisis factorial (AF)

1. Introducción

El análisis factorial fue propuesto por primera vez por Spearman en 1904, lo que puede considerarse como la promoción y expansión del análisis de componentes principales hasta cierto punto.
Al estudiar la matriz de coeficientes de correlación entre las variables , el método de análisis factorial resume la intrincada relación entre estas variables en unos pocos factores completos, porque la cantidad de factores atribuidos es menor que la cantidad de variables originales, pero también contienen la información del original. variables, por lo que este proceso de análisis también se denomina reducción de dimensionalidad. Debido a que los factores a menudo son más fáciles de explicar que los componentes principales, es más probable que el análisis factorial tenga éxito que el análisis de componentes principales y, por lo tanto, tiene aplicaciones más amplias.