Minería de datos
: proceso de descubrimiento de conocimiento de base de datos :
- Limpieza de datos: elimine el ruido y los datos inconsistentes
- Integración de datos: se pueden combinar múltiples fuentes de datos
- Selección de datos: extraiga y analice datos relacionados con tareas de la base de datos
- Transformación de datos: transforma y unifica datos en un formulario adecuado para la minería a través de operaciones de resumen o agregación
- Minería de datos: uso de métodos inteligentes para extraer patrones de datos
- Evaluación de patrones: identifique patrones realmente interesantes que representen el conocimiento basado en el interés
- Representación del conocimiento: utilice la tecnología de visualización y representación del conocimiento para proporcionar a los usuarios
6 etapas de minería de datos (crisp-dm): comprensión empresarial, comprensión de datos, preparación de datos, modelado, evaluación de modelos y publicación de modelos
OLTP (procesamiento de transacciones en línea): es principalmente el procesamiento de datos de producción, que generalmente es común en la generación de datos, por lo que es un sistema de procesamiento de datos en tiempo real. Por ejemplo, una transacción se completa, se registra inmediatamente en el sistema de base de datos, por lo que es necesario tener en cuenta al construir una base de datos. Se construyen tres paradigmas para facilitar la adición, eliminación y modificación de datos.
OLAP (procesamiento de análisis en línea): principalmente para construir datos históricos para una consulta fácil, por lo que sus tablas son generalmente planas, y los datos después de la inserción generalmente no cambian, por lo que sus datos generalmente se dividen en tablas de hechos y tablas de dimensiones para mayor comodidad Los analistas recuperan datos de ellos para su análisis, que también es el método de procesamiento de almacenes de datos y data marts
Descubrimiento de conocimiento en datos (KDD)
Diagrama ER: diagrama de correlación entre diferentes entidades
Conjunto de artículos frecuentes: se refiere a una colección de productos que con frecuencia aparecen juntos en un conjunto de datos de transacciones, como la leche y el pan que muchos clientes compran juntos con frecuencia.
Clúster: una colección de objetos de datos que hace que los objetos en el mismo clúster sean similares entre sí y diferentes de otros objetos de
clúster Análisis de valores atípicos: Basado en la tecnología de clústeres, trate los posibles valores atípicos como objetos que son muy diferentes de otros objetos.
Matriz de datos y matriz de disimilitud
En general, los algoritmos de agrupación basada en memoria y KNN (vecino más cercano) se ejecutan en estas dos estructuras de datos.
Matriz de datos (estructura de objeto-atributo): esta estructura de datos tiene la forma de una tabla relacional o n La matriz p almacena n objetos de datos, atributos p
. La matriz de disimilitud (estructura objeto-objeto): almacena la proximidad de n objetos entre dos pares. La matriz n n se utiliza para representar
atributos binarios. La medida de proximidad
utiliza atributos binarios simétricos y asimétricos.
Describa el coeficiente de Jaccard de la medida de disimilitud y similitud de objetos: sim (i, j) describe el grado de similitud
Ejemplo: El ejemplo anterior elimina
el valor de 0 para los objetos i, j, es decir, no participa en la comparación de atributos, por lo que se denomina asimétrico Disimilitud binaria
Consulte
Dimensión que cambia lentamente:
https://www.nuwavesolutions.com/slowly-changing-dimensions/