Algunos conceptos básicos y procesos de minería de datos.

Minería de datos
: proceso de descubrimiento de conocimiento de base de datos :

  1. Limpieza de datos: elimine el ruido y los datos inconsistentes
  2. Integración de datos: se pueden combinar múltiples fuentes de datos
  3. Selección de datos: extraiga y analice datos relacionados con tareas de la base de datos
  4. Transformación de datos: transforma y unifica datos en un formulario adecuado para la minería a través de operaciones de resumen o agregación
  5. Minería de datos: uso de métodos inteligentes para extraer patrones de datos
  6. Evaluación de patrones: identifique patrones realmente interesantes que representen el conocimiento basado en el interés
  7. Representación del conocimiento: utilice la tecnología de visualización y representación del conocimiento para proporcionar a los usuarios
    Inserte la descripción de la imagen aquí
    6 etapas de minería de datos (crisp-dm): comprensión empresarial, comprensión de datos, preparación de datos, modelado, evaluación de modelos y publicación de modelos

OLTP (procesamiento de transacciones en línea): es principalmente el procesamiento de datos de producción, que generalmente es común en la generación de datos, por lo que es un sistema de procesamiento de datos en tiempo real. Por ejemplo, una transacción se completa, se registra inmediatamente en el sistema de base de datos, por lo que es necesario tener en cuenta al construir una base de datos. Se construyen tres paradigmas para facilitar la adición, eliminación y modificación de datos.

OLAP (procesamiento de análisis en línea): principalmente para construir datos históricos para una consulta fácil, por lo que sus tablas son generalmente planas, y los datos después de la inserción generalmente no cambian, por lo que sus datos generalmente se dividen en tablas de hechos y tablas de dimensiones para mayor comodidad Los analistas recuperan datos de ellos para su análisis, que también es el método de procesamiento de almacenes de datos y data marts

Descubrimiento de conocimiento en datos (KDD)

Diagrama ER: diagrama de correlación entre diferentes entidades

Conjunto de artículos frecuentes: se refiere a una colección de productos que con frecuencia aparecen juntos en un conjunto de datos de transacciones, como la leche y el pan que muchos clientes compran juntos con frecuencia.

Clúster: una colección de objetos de datos que hace que los objetos en el mismo clúster sean similares entre sí y diferentes de otros objetos de
clúster Análisis de valores atípicos: Basado en la tecnología de clústeres, trate los posibles valores atípicos como objetos que son muy diferentes de otros objetos.

Matriz de datos y matriz de disimilitud
En general, los algoritmos de agrupación basada en memoria y KNN (vecino más cercano) se ejecutan en estas dos estructuras de datos.
Matriz de datos (estructura de objeto-atributo): esta estructura de datos tiene la forma de una tabla relacional o n La matriz p almacena n objetos de datos, atributos p
Inserte la descripción de la imagen aquí
. La matriz de disimilitud (estructura objeto-objeto): almacena la proximidad de n objetos entre dos pares. La
matriz n n se utiliza para representar
Inserte la descripción de la imagen aquí
atributos binarios. La medida de proximidad
utiliza atributos binarios simétricos y asimétricos.
Inserte la descripción de la imagen aquí
Describa el coeficiente de Jaccard de la medida de disimilitud y similitud de objetos: sim (i, j) describe el grado de similitud
Inserte la descripción de la imagen aquí
Ejemplo: El ejemplo anterior elimina
Inserte la descripción de la imagen aquí
Inserte la descripción de la imagen aquí
el valor de 0 para los objetos i, j, es decir, no participa en la comparación de atributos, por lo que se denomina asimétrico Disimilitud binaria

Consulte
Dimensión que cambia lentamente:
https://www.nuwavesolutions.com/slowly-changing-dimensions/

Publicado 69 artículos originales · elogiado 11 · 20,000+ visitas

Supongo que te gusta

Origin blog.csdn.net/weixin_41636030/article/details/95903662
Recomendado
Clasificación