[Preprocesamiento de datos] Reducción de dimensionalidad de datos y extracción de características

La reducción de la dimensionalidad de los datos y la extracción de características son técnicas comunes utilizadas en el preprocesamiento de datos y tienen como objetivo reducir la dimensionalidad de los datos para mejorar el rendimiento del modelo o reducir la complejidad computacional. Sin embargo, sus objetivos y enfoques difieren ligeramente:

  1. Reducción de la dimensionalidad de los datos :

    • Objetivo : El propósito de la reducción de la dimensionalidad de los datos es reducir las dimensiones de las características de los datos y al mismo tiempo conservar la mayor cantidad de información original posible para que los datos puedan procesarse y analizarse de manera más eficiente.

    • Métodos : Los métodos de reducción de dimensionalidad de datos comúnmente utilizados incluyen el análisis de componentes principales (PCA), el análisis discriminante lineal (LDA), etc. PCA intenta encontrar las direcciones más dominantes (componentes principales) en los datos para representarlos, proyectando así los datos en un espacio de baja dimensión. LDA es un método de reducción de dimensionalidad de aprendizaje supervisado que tiene en cuenta la información de categorías y asigna los datos a un espacio de baja dimensión que puede distinguir mejor diferentes categorías.

    • Escenarios aplicables : la reducción de la dimensionalidad de los datos es adecuada cuando los datos tienen grandes dimensiones pero información redundante. Puede ayudar a reducir el costo de los recursos informáticos, mejorar la eficiencia del entrenamiento del modelo y reducir el riesgo de sobreajuste del modelo.

  2. Extracción de características :

    • Objetivo : la extracción de características consiste en encontrar características más discriminantes transformando los datos originales en un nuevo espacio de características para modelado y predicción.

    • Método : Los métodos de extracción de características más utilizados incluyenBasado en estadísticasmétodos (como media, varianza, coeficiente de correlación, etc.),Basado en el dominio de la frecuenciamétodos (como la transformada de Fourier, etc.),Basado en la teoría de la información.métodos (como información mutua, obtención de información, etc.), etc.

    • Escenarios aplicables : la extracción de funciones se utiliza generalmente cuando las funciones originales contienen mucho ruido o información redundante y se espera filtrar funciones que sean más útiles para la tarea de destino.

Resumen de diferencias :

  • El propósito de la reducción de la dimensionalidad de los datos es reducir las dimensiones de los datos para reducir la complejidad computacional o facilitar la visualización conservando la mayor cantidad de información posible.
  • El propósito de la extracción de características es extraer características que sean más significativas o discriminativas para la tarea de las características originales para mejorar el rendimiento del modelo.

Ambas técnicas se utilizan a menudo juntas en tareas del mundo real para preparar mejor los datos para el modelado y el análisis.

Proceso clásico de preprocesamiento de datos.

Insertar descripción de la imagen aquí

Supongo que te gusta

Origin blog.csdn.net/weixin_44943389/article/details/133324558
Recomendado
Clasificación