¿Cuál es el proceso de minería de datos? Fácil de entender

Autor: Charles Lu · C Ajiawoer (Charu C. Aggarwal)
Fuente: datos grandes DT

Guía: El proceso de minería de datos incluye varias etapas, como la limpieza de datos, la extracción de características y el diseño de algoritmos. Este artículo discutirá estas etapas.

01 Proceso de minería de datos

El proceso de una aplicación típica de minería de datos incluye las siguientes etapas.

1. Recopilación de datos

La recopilación de datos puede consistir en el uso de hardware especializado, como redes de sensores, encuestas de usuarios introducidas manualmente o herramientas de software como rastreadores web para recopilar documentos. Aunque esta etapa está estrechamente relacionada con aplicaciones específicas, a menudo queda fuera del alcance de los analistas de minería de datos. Esta etapa también es crítica para el proceso de minería de datos, porque las elecciones que se tomen en esta etapa afectarán significativamente todo el proceso de minería de datos .

Los datos generados en la fase de adquisición generalmente se almacenan primero en una base de datos, que se denomina almacén de datos en un sentido amplio, y luego se procesan.

2. Extracción de funciones y limpieza de datos

El formato de los datos obtenidos en la fase de adquisición antes mencionada a menudo no es adecuado para el procesamiento directo. Por ejemplo, los datos recopilados pueden ser registros o documentos de formato libre que utilizan códigos complejos y, en muchos casos, varios tipos de datos se mezclan arbitrariamente para formar documentos de formato libre.

Para que dichos datos sean adecuados para su procesamiento posterior, es necesario convertirlos a un formato adecuado para algoritmos de minería de datos , comoDatos multidimensionalesDatos de series de tiempooDatos semiestructuradosEsperar.

Los datos multidimensionales son el formato más común y sus diferentes campos corresponden a varios atributos de medición que pueden denominarse características, atributos o dimensiones. La extracción de estas características es una etapa crucial de la minería de datos, y la etapa de extracción de características generalmente se lleva a cabo en paralelo con la etapa de limpieza de datos para estimar o corregir los datos faltantes y los datos incorrectos.

Además, en muchos casos, los datos pueden agregarse de múltiples fuentes y deben convertirse a un formato unificado para su procesamiento . El resultado final del proceso anterior es un conjunto de datos bien estructurados que los programas informáticos pueden utilizar de manera eficaz. Después de la etapa de extracción de características, los datos se pueden volver a almacenar en la base de datos para su posterior procesamiento.

3. Análisis y procesamiento y algoritmos

El último paso del proceso de minería de datos es diseñar métodos de análisis efectivos para los datos procesados. En muchos casos, es poco probable que la aplicación en cuestión pueda transformarse directamente en un problema de minería de datos estándar, como minería de patrones de asociación , agrupamiento , clasificación y detección de anomalías .Super problemaUno de ".

Pero estos cuatro superproblemas tienen una amplia cobertura y pueden formar los módulos básicos de las tareas de minería de datos, y la mayoría de las aplicaciones se pueden realizar reuniendo estos componentes como módulos básicos.

Todo el proceso de minería de datos se puede representar en la Figura 1-1. Tenga en cuenta que el módulo de análisis y procesamiento de la figura muestra una solución diseñada para una aplicación específica y compuesta por varios módulos básicos, esta parte depende de las habilidades del analista. La práctica habitual es utilizar uno o más de los cuatro problemas principales como módulo básico para construir.
Inserte la descripción de la imagen aquí
▲ Figura 1-1 Canal de procesamiento de datos

Debe admitirse que no todas las aplicaciones de minería de datos pueden utilizar estos cuatro problemas principales para crear soluciones, pero muchas aplicaciones pueden resolverse de esta manera, por lo que es necesario darles un estatus especial a estos cuatro problemas principales. A continuación, utilizamos un ejemplo de aplicación recomendado para explicar todo el proceso de minería de datos.

  • Considere el escenario de un minorista en línea de este tipo, que guarda el registro de visitas de los clientes que visitan su sitio web y también recopila información básica sobre el cliente. Suponiendo que cada página del sitio web corresponde a un producto, un cliente que visita una página puede indicar que está interesado en el producto correspondiente. Los minoristas esperan recomendar productos a los clientes de manera específica mediante el análisis de los datos personales de los clientes y su comportamiento de compra.

Ejemplo de un proceso de resolución de problemas : el primer paso del analista es recopilar datos de dos fuentes diferentes, uno son registros extraídos del sistema de registro del sitio web y el otro son datos personales del cliente extraídos de la base de datos del minorista. Una dificultad aquí es que estos dos tipos de datos utilizan formatos de datos muy diferentes y no es fácil procesarlos juntos. Por ejemplo, un registro puede aparecer de la siguiente forma.
Inserte la descripción de la imagen aquí
El registro puede contener miles de dichas entradas. La entrada anterior muestra que un cliente con una dirección IP 98.206.207.157 visitó la página web productA.htm. Para confirmar quién es el cliente que utiliza una dirección IP, puede utilizar la información de inicio de sesión anterior, o mediante registros de cookies en la página web, o incluso directamente a través de la propia dirección IP, pero este proceso de confirmación puede estar lleno de ruido y no siempre produce resultados precisos.

Como parte del proceso de limpieza y extracción de datos, los analistas también necesitan diseñar algoritmos para filtrar de manera efectiva diferentes entradas de registro de modo que solo se utilicen aquellos segmentos de datos que brinden resultados precisos, ya que el registro original contiene muchos que pueden no ser de utilidad para el minorista información adicional.

En la etapa de extracción de características, el minorista decide extraer características del registro de acceso a la página web y crea un registro para cada cliente, en el que cada producto se establece como un atributo para registrar el número de visitas de este cliente a la página web del producto correspondiente.

Por lo tanto, esta extracción de características debe procesar cada registro original y agregar las características extraídas de varios registros. Más adelante en la integración de datos, estos datos de atributos se agregarán a la base de datos de clientes del minorista. Esta base de datos de clientes contiene datos personales del cliente. Si faltan determinadas entradas en el registro de datos personales, se requiere una limpieza de datos adicional.

Al final, obtenemos un conjunto de datos que integra los atributos de la información personal del cliente y los atributos del número de visitas al producto por parte del cliente .

En este punto, el analista debe decidir cómo utilizar este conjunto de datos limpios para proporcionar recomendaciones a los clientes. Los analistas pueden dividir a los clientes similares en varios grupos y hacer recomendaciones basadas en el comportamiento de compra de cada grupo.

El análisis de conglomerados se puede utilizar aquí como módulo básico para identificar grupos de clientes similares. Para cada cliente, puede recomendar el producto que el grupo de clientes en su conjunto visita más veces (aquí se refiere a la página web del producto). Este caso contiene un proceso de minería de datos completo.

Hay muchos métodos hermosos para proporcionar recomendaciones, y tienen sus propias ventajas y desventajas en diferentes situaciones. Por lo tanto, todo el proceso de minería de datos es un arte, que está determinado en gran medida por las habilidades del analista, no completamente por técnicas específicas o debido. Para los módulos básicos, esta habilidad solo se puede adquirir a través de la práctica de procesar varios tipos de datos diferentes bajo diferentes requisitos de aplicación .

02 Etapa de preprocesamiento de datos

La etapa de preprocesamiento de datos puede ser la etapa más crítica en el proceso de minería de datos . Sin embargo, esta etapa rara vez se analiza como debería, porque la mayoría de las discusiones sobre minería de datos se centran en el análisis de datos. Esta etapa comienza después de la recopilación de datos e incluye los siguientes pasos.

1. Extracción de características

Los analistas pueden enfrentarse a una gran cantidad de documentos originales, registros del sistema y transacciones comerciales, pero apenas existe un método de inicio rápido para convertir estos datos sin procesar en datos significativos. Este paso depende en gran medida de la capacidad de abstracción del analista para encontrar las características más relevantes para la aplicación en cuestión.

Por ejemplo, en las aplicaciones de detección de fraudes con tarjetas de crédito, el monto del cargo, la frecuencia de repetición y la información de ubicación son a menudo indicadores efectivos para encontrar fraudes, mientras que muchas otras características de la información pueden ser de poca utilidad. Por lo tanto, extraer las características correctas es a menudo una tarea técnica y requiere una comprensión completa del campo relevante de la aplicación en cuestión .

2. Limpieza de datos

Los datos obtenidos mediante la extracción de características anterior pueden contener errores y algunos elementos pueden perderse durante la recopilación y extracción. Por lo tanto, es posible que tengamos que descartar algunos registros de datos que contienen errores, o estimar y completar las entradas faltantes y eliminar inconsistencias en los datos.

3. Selección y conversión de funciones

Cuando la dimensión de los datos es muy alta, muchos algoritmos de minería de datos fallarán. Y cuando la dimensión de los datos es muy alta, el ruido de los datos aumentará, lo que puede provocar errores de minería de datos. Por lo tanto, es necesario utilizar algunos métodos para eliminar características irrelevantes para la aplicación o para transformar los datos en un nuevo espacio dimensional para facilitar el análisis de datos .

Otro problema relacionado es la conversión de datos , que convierte algunos atributos en otro atributo del mismo tipo de datos o similar. Por ejemplo, convertir los valores de edad en grupos de edad puede ser más eficaz y conveniente para el análisis.

El proceso de limpieza de datos generalmente necesita usar métodos estadísticos para estimar los datos faltantes. Además, para garantizar la precisión de los resultados de la minería, generalmente es necesario eliminar las entradas de datos incorrectas.

Dado que la selección de características y la conversión de datos dependen en gran medida de problemas de análisis específicos, no deben considerarse como parte del preprocesamiento de datos. Incluso en algunos casos, la selección de características puede estar estrechamente integrada con algoritmos o métodos específicos para formar un modelo de empaquetado o modelo integrado. aparece el formulario. Sin embargo, en general, la fase de selección de características se realiza antes de que se aplique el algoritmo de minería específico.

03 Fase de análisis

Un desafío importante es que cada aplicación de minería de datos es única y es difícil crear una tecnología de minería flexible y reutilizable para muchos tipos de aplicaciones. Sin embargo, encontramos que algunos métodos de minería de datos se repiten en diversas aplicaciones, el llamado "superproblema" o el módulo básico de minería de datos.

La forma de utilizar estos métodos básicos en aplicaciones específicas de minería de datos depende en gran medida de las habilidades y la experiencia del analista. Aunque estos módulos básicos se pueden describir bien, la forma de utilizarlos en aplicaciones prácticas solo se puede lograr a través de la práctica para aprender.

Supongo que te gusta

Origin blog.csdn.net/qq_32727095/article/details/114323495
Recomendado
Clasificación