Análisis integral y aplicación de los principios del Análisis de Componentes Principales (PCA)


El análisis de componentes principales (PCA) es una técnica de reducción de dimensionalidad de uso común para la extracción de características y la visualización de datos de datos. Este artículo analizará en profundidad el principio de PCA, desde el cálculo de la matriz de covarianza de los datos hasta la selección de los vectores propios, y comprenderá completamente el principio de funcionamiento y la aplicación de PCA.

1. Descripción general del algoritmo PCA

PCA es un algoritmo de aprendizaje no supervisado que se utiliza para transformar datos de alta dimensión en datos de baja dimensión conservando la mayor cantidad de información posible. La idea principal de PCA es mapear los datos originales a un nuevo sistema de coordenadas a través de una transformación lineal, donde los ejes de coordenadas se organizan de acuerdo con la varianza de los datos.

2. Preprocesamiento de datos

Antes de aplicar PCA, los datos deben procesarse previamente para garantizar que la media de los datos sea cero. Esto se puede hacer restando la media de cada característica. Los datos preprocesados ​​ayudan a calcular la matriz de covarianza con precisión.

3. Cálculo de la matriz de covarianza

El núcleo de PCA es calcular la matriz de covarianza de los datos. La matriz de covarianza describe la correlación entre las características de los datos. Para un conjunto de datos de n muestras con m características, la matriz de covarianza tiene una dimensión m × m. Los elementos de la matriz de covarianza representan la covarianza entre diferentes características.

4. Valores propios y vectores propios

Al realizar la descomposición de valores propios en la matriz de covarianza, se pueden obtener los valores propios y los vectores propios correspondientes. Los valores propios representan la varianza de los datos en la dirección de los vectores propios. Los vectores propios representan las direcciones principales de los datos en el nuevo sistema de coordenadas.

5. Selecciona los componentes principales

El método de selección de componentes principales consiste en clasificar según la magnitud de los valores propios. El vector propio correspondiente con el valor propio más grande representa la varianza más grande contenida en los datos. Por lo general, elegimos los k vectores propios superiores con valores propios más grandes como componentes principales.

6. Proyección de datos

La reducción de la dimensionalidad se puede lograr mapeando los datos en un nuevo espacio formado por los componentes principales. La proyección de datos se logra mediante la producción de puntos de los datos sin procesar con los componentes principales elegidos. Los datos proyectados tienen dimensiones más bajas, pero conservan la mayor cantidad de información posible de los datos originales.

7. Ventajas y desventajas de PCA

Ventajas del algoritmo PCA:

  • Reduzca la dimensionalidad de los datos y elimine la información redundante
  • Extraiga las características principales de los datos para facilitar el análisis y la visualización de datos posteriores.
  • Reducir el costo de almacenamiento y computación de datos

Desventajas del algoritmo PCA:

  • Sensible a los valores atípicos, que pueden tener un mayor impacto en el cálculo de los componentes principales
  • PCA es un método lineal y puede no funcionar bien para datos con relaciones no lineales

8. Aplicación del algoritmo PCA

from sklearn.datasets import load_iris
from sklearn.decomposition import PCA

# 加载数据集
iris = load_iris()
X = iris.data

# 创建PCA模型
pca = PCA(n_components=2)

# 应用PCA模型
X_pca = pca.fit_transform(X)

# 打印降维后的数据
print(X_pca)

En el código, primero se carga un conjunto de datos de iris clásico (Iris), se crea un modelo PCA y la dimensión después de la reducción de dimensión se especifica como 2. Aplique el modelo PCA a los datos originales y obtenga los datos reducidos dimensionalmente. Finalmente, imprima los datos reducidos.

Supongo que te gusta

Origin blog.csdn.net/weixin_43749805/article/details/131313069
Recomendado
Clasificación