[Notas de estudio de análisis de datos] Preprocesamiento de datos

Estudio de análisis de datos notas-preprocesamiento de datos

Por un lado, el preprocesamiento de datos es mejorar la calidad de los datos, por otro lado, es necesario hacer que los datos se adapten mejor a técnicas o herramientas de minería específicas.

Los principales contenidos del preprocesamiento de datos incluyen: limpieza de datos, integración de datos, transformación de datos y especificación de datos.

Los puntos de conocimiento se resumen de la siguiente manera:


El proceso principal de preprocesamiento de datos. 

Limpieza de datos: es principalmente para eliminar datos irrelevantes, duplicar datos en el conjunto de datos original, suavizar datos de ruido, filtrar datos irrelevantes para el tema de minería y tratar los valores perdidos y los valores atípicos.

Integración de datos: el proceso de combinar múltiples fuentes de datos y almacenarlos en un almacén de datos coherente (como un almacén de datos).

Transformación de datos: normalice los datos y transforme los datos en una forma "apropiada" para satisfacer las necesidades de las tareas y algoritmos de minería.

Reducción de datos: el análisis de datos complejos y la minería en grandes conjuntos de datos lleva mucho tiempo. La reducción de datos genera nuevos conjuntos de datos que son más pequeños pero mantienen la integridad de los datos originales. Será más eficiente analizar y extraer datos del conjunto de datos después de la especificación.

Publicado 646 artículos originales · elogiado 198 · 690,000 visitas

Supongo que te gusta

Origin blog.csdn.net/seagal890/article/details/105375036
Recomendado
Clasificación