Minería de datos (1)--Aprendizaje de conocimientos básicos

Tabla de contenido

prefacio

texto

1. Historia y desarrollo de la minería de datos

a.Descripción básica

B. Proceso típico de descubrimiento de conocimientos 

 c. Estructura típica del sistema de minería de datos

d. Todavía hay muchos problemas en la minería de datos para ser estudiados más a fondo

3. Contenido de la investigación y funciones de la minería de datos 

a. Contenido de la investigación 

B. Principales funciones de la minería de datos

4. Técnicas y herramientas comunes para la minería de datos

a. Técnicas comúnmente utilizadas de minería de datos

B. Diez algoritmos clásicos para la minería de datos

c. Herramientas para la minería de datos

D. Métodos tradicionales de análisis de datos y minería de datos

5. Puntos de acceso de aplicaciones de minería de datos

6. Los principales problemas a los que se enfrenta la minería de datos

a. Problemas que enfrentan los métodos de minería

b. Problemas con la interactividad del usuario

c. Aplicación e impacto social

resumen

Referencias


prefacio

Desde la década de 1990, con la popularización de las aplicaciones de tecnología de bases de datos, la tecnología de minería de datos (Data Mining) ha atraído una gran atención de la academia y la industria. Los datos a gran escala, el valor real de estos datos, se pueden poner realmente en juego en el futuro. Debido a las necesidades de aplicación del trabajo de análisis y gestión de datos, estos datos deben convertirse en información y conocimiento útiles, es decir, desde las estadísticas de datos tradicionales hasta la extracción y el análisis de datos. Además, la información y el conocimiento obtenidos a través de la tecnología de minería de datos también se pueden utilizar ampliamente en diversas industrias, incluido el desarrollo y análisis de mercado, la gestión empresarial, el control de producción, el diseño de ingeniería y la exploración científica. (Extracto de "Minería de datos: métodos y aplicaciones" Xu Hua)

texto

1. Historia y desarrollo de la minería de datos

a.Descripción básica

La minería de datos (DM), también conocida como Knowledge Discovery in Database (KDD), es un campo de investigación interdisciplinario que involucra el aprendizaje automático, la inteligencia artificial, la teoría de bases de datos y las estadísticas.
La minería de datos es extraer información útil de una gran cantidad de datos en la base de datos, es decir, descubrir información oculta, regular y desconocida de una gran cantidad de datos de aplicación práctica incompletos, ruidosos, confusos y aleatorios. proceso de generar información y conocimientos, pero potencialmente útiles y, en última instancia, comprensibles.

No todas las operaciones y análisis relacionados con bases de datos pertenecen al ámbito de la investigación de minería de datos.

La minería de datos (DM) es la parte central de Knowledge Discovery (KDD).
El desarrollo de la base teórica de las matemáticas de minería de datos es inseparable del desarrollo de las estadísticas.

B. Proceso típico de descubrimiento de conocimientos 

6999fcb264904299b55babc71aef7397.png

 c. Estructura típica del sistema de minería de datos

 7660dc241c7b4a0c938100ef8ed2bbe3.png

d. Todavía hay muchos problemas en la minería de datos para ser estudiados más a fondo

Todavía hay muchos problemas en la minería de datos que deben estudiarse más a fondo, incluidas las siguientes direcciones de investigación:
① Eficiencia y escalabilidad de los algoritmos
② Manejo de diferentes tipos de datos y fuentes de datos
③ Interactividad de los sistemas de minería de datos
④ Protección de la información y minería de datos en la seguridad de la minería de datos
⑤Explorar nuevas áreas de aplicación
⑥Disponibilidad, certeza y expresibilidad de los resultados de la minería de datos
⑦Minería de datos visual

3. Contenido de la investigación y funciones de la minería de datos 

a. Contenido de la investigación 

Los tipos de conocimiento más comunes descubiertos por la minería de datos son los siguientes cinco tipos:
① Generalización.
El conocimiento generalizado se refiere a la descripción general del conocimiento de las características de la categoría, que refleja la naturaleza común de cosas similares.
Es la generalización, el refinamiento y la abstracción de datos.
② Conocimiento de asociación (Asociación) El conocimiento de asociación
refleja el conocimiento de dependencia o asociación entre un evento y otros eventos, también conocido como
relación de dependencia (Dependency)
③ Clasificación y agrupamiento:
el conocimiento de clasificación se usa para reflejar la naturaleza común de cosas similares Conocimiento de tipo de característica y
conocimiento de características de tipo diferencia entre diferentes cosas
④ Conocimiento de tipo predicción (Predicción)
El conocimiento de tipo predicción predice
datos futuros a partir de datos históricos y actuales basados ​​en datos de series temporales , que también pueden considerarse como conocimiento asociativo con el tiempo como atributo clave
⑤Conocimiento de desviación (Desviación)
El conocimiento de desviación es la descripción de diferencias y casos especiales extremos, que revela los
fenómenos anormales que las cosas se desvían de la rutina, como casos especiales fuera de la clase estándar, valores atípicos fuera del valor de agrupación de datos, etc. 

B. Principales funciones de la minería de datos

1. Descripción de Clase/Concepto: Caracterización y Distinción
Para resumir descriptivamente un conjunto de datos que contiene una gran cantidad de datos y obtener una descripción concisa y precisa, esta descripción se denomina Descripción de Clase/Concepto (Class/Concept Description). .
Esta descripción se puede obtener mediante los siguientes métodos:
(1) caracterización de datos
(2) diferenciación de datos
(3) caracterización y comparación de datos

2. Análisis de asociación Análisis de asociación
(Análisis de asociación) es encontrar conocimiento de patrón de conjunto de elementos que ocurre con frecuencia a partir de un conjunto de datos dado, también conocido como reglas de asociación edad(X,"20..29")^ingresos(X,"20..29K ") >compra(X,"PC")[soporte = 2%, confianza = 60%]

3. Clasificación y predicción

El trabajo de investigación relacionado con la minería de datos a menudo trata de construir un modelo o una función de descripción para describir o distinguir diferentes tipos y conceptos, a fin de realizar los posibles requisitos de predicción para el futuro. Por ejemplo, en el trabajo real, los países relevantes a menudo se clasifican según el tipo de clima y se dividen en países tropicales, países templados y países frígidos. En la vida real, los coches se clasifican según su desplazamiento. Se divide en vehículos de pequeña cilindrada, vehículos de gran cilindrada y otros tipos. En el proceso de aplicación real de la tecnología de minería de datos para resolver problemas relacionados, las técnicas y métodos de clasificación se utilizan a menudo para resolver la predicción de resultados desconocidos o características cuantitativas desconocidas.

4. Análisis de conglomerados
Los datos analizados y procesados ​​por el análisis de conglomerados (ya sea en aprendizaje o en predicción de clasificación) no tienen asignación de categoría (determinada de antemano).
Principio de agrupamiento:

Maximizar la similitud dentro de la clase.

Minimizar la similitud entre clases. 

5. Análisis de valores atípicos
La mayoría de los métodos de minería de datos descartan los valores atípicos como ruido o anomalías, pero los valores atípicos se pueden detectar mediante pruebas estadísticas. 

6. Análisis de evolución
El análisis de evolución de datos (Análisis de evolución) consiste en modelar y describir las reglas de cambio y las tendencias de los objetos de datos que cambian con el tiempo. 

4. Técnicas y herramientas comunes para la minería de datos

a. Técnicas comúnmente utilizadas de minería de datos

Tecnología predictiva, análisis de conglomerados, computación evolutiva, lógica difusa, árbol de juegos, análisis estadístico, teoría de control y toma de decisiones, computación paralela Almacenamiento de Haitong, tecnología de reglas de asociación, tecnología de conjunto aproximado, sistema gris, inteligencia artificial, razonamiento del conocimiento, tecnología de visualización

B. Diez algoritmos clásicos para la minería de datos

1. Clasificador de árboles de decisión C4.5 (algoritmo de clasificación)

2. Algoritmo K-means (algoritmo de agrupamiento)

3. Máquina de vectores de soporte (algoritmo de clasificación)

4. Algoritmo a priori (algoritmo de análisis de patrones frecuentes)

5. Algoritmo de estimación de expectativa máxima (clasificador débil integrado)

6. Algoritmo PageRank (algoritmo de clasificación)

7. Algoritmo AdaBoost (clasificador débil integrado)

8. Algoritmo de clasificación del vecino más cercano K (algoritmo de clasificación)

9. Algoritmo bayesiano ingenuo (algoritmo de clasificación)

10. Algoritmo de árbol de clasificación y regresión (algoritmo de agrupamiento)


C4.5 (61 votos)
K-Means (60 votos)
SVM (58 votos)
Apriori (52 votos)
EM (48 votos)
PageRank (46 votos)
AdaBoost (45 votos)
kNN (45 votos)
Naive Bayes (45 votos)
CARRITO (34 votos)

c. Herramientas para la minería de datos

1. Herramientas basadas en redes neuronales
Las redes neuronales se utilizan para la clasificación, la minería de características, la predicción y el reconocimiento de patrones.
2. Herramientas basadas en reglas y árboles de decisión
La principal ventaja es que tanto las reglas como los árboles de decisión son legibles.
3. Herramientas basadas en lógica difusa
Este método utiliza lógica difusa para la consulta de datos, clasificación, etc.
4. Herramientas integrales de múltiples métodos
Estas herramientas son generalmente de gran escala y adecuadas para grandes bases de datos (incluidas las bases de datos paralelas)

D. Métodos tradicionales de análisis de datos y minería de datos

(1) Datos masivos

(2) datos de alta dimensión

(3) Datos de alta complejidad. Los siguientes son algunos tipos típicos de datos de complejidad en el trabajo diario

① Flujo de datos y datos sensoriales.

②Datos de series temporales, series de datos que cambian con el tiempo.

③ Datos estructurados, gráficos, redes sociales y datos relacionales multienlace.

④ Base de datos heterogénea, datos legales.

⑤ Datos espaciales, datos de descripción espaciotemporal, datos multimedia, datos web.

⑥Programas de software, datos de simulación científica, etc.
 

5. Puntos de acceso de aplicaciones de minería de datos

La tecnología de minería de datos proviene de las necesidades directas de los negocios y tiene una amplia gama de valores de uso en varios campos.
1. Aplicaciones en el campo financiero
2. Transacciones financieras en red
3. Aplicaciones comerciales minoristas
4. Aplicaciones de telecomunicaciones médicas

6. Los principales problemas a los que se enfrenta la minería de datos

a. Problemas que enfrentan los métodos de minería

(1) Cuando se utilizan métodos de minería de datos para descubrir conocimiento, generalmente se espera que los métodos de minería adoptados puedan realizar diferentes tipos de minería de conocimiento a partir de diferentes tipos de datos.

(2) El objeto de la minería de datos suele ser datos masivos a gran escala, y el rendimiento de los algoritmos de minería también es uno de los temas importantes que a menudo llaman la atención en el proceso de minería de datos.

(3) En las tareas de minería de datos descriptivos, es necesario realizar la evaluación de patrones correspondiente sobre los patrones frecuentes o regularidades analizados.

(4) Los objetos del trabajo de minería de datos son a menudo usuarios con diferentes antecedentes profesionales. Cómo integrar conocimientos previos relevantes en el método de minería para hacer que el trabajo de minería sea más específico también es un tema importante en la investigación de métodos de minería.

(5) Durante el uso de métodos de minería, los objetos que se extraerán suelen ser datos ruidosos e incompletos.

(6) En los últimos años, con la madurez de la tecnología de computación paralela y la construcción de la plataforma de tecnología de computación en la nube, a menudo se requiere que los futuros métodos de extracción de datos masivos sean paralelos, distribuidos e incrementales.

(7) El algoritmo de minería debe poder integrar activamente el conocimiento descubierto, es decir, realizar la fusión del conocimiento.

b. Problemas con la interactividad del usuario

(1) Sobre el tema de la interactividad del usuario, es necesario proponer un lenguaje de consulta orientado a la minería de datos para realizar la minería de datos en tiempo real. (2) Es necesario presentar la tecnología de representación y visualización de resultados de minería de datos del usuario de una manera intuitiva para presentar los resultados de minería. Eso es llevar a cabo investigaciones sobre métodos de visualización computacional para tecnología de minería de datos.

(3) Los usuarios a menudo necesitan implementar minería interactiva en múltiples niveles de abstracción, es decir, se requiere que todo el proceso de minería de datos sea interactivo.

c. Aplicación e impacto social

(1) En términos de aplicación. Existe una necesidad urgente de llevar a cabo una minería de datos orientada al dominio y realizar una minería de datos que la gente común no pueda percibir ni ver. (2) En el proceso de aplicación de la minería de datos, es necesario fortalecer la protección de la seguridad, integridad y privacidad de los datos.

resumen

Este capítulo analiza en detalle algunos conceptos básicos de la minería de datos, expone la historia y el desarrollo de la tecnología de minería de datos, resume el contenido y las funciones de la minería
de datos tecnologías y herramientas de minería de datos existentes y presenta los principios de los puntos de acceso de la aplicación de minería de datos.

Como resultado inevitable del desarrollo de la tecnología de bases de datos, la tecnología de minería de datos ha sido ampliamente investigada y aplicada. La minería de datos es descubrir conocimiento valioso a partir de datos masivos. Un proceso típico de descubrimiento de conocimiento incluye limpieza de datos, integración de datos, selección de datos, transformación de datos, extracción de datos, evaluación de esquemas y representación de conocimiento. El trabajo de minería de datos se puede llevar a cabo en diferentes almacenes de datos. La minería de datos se puede completar: extracción de características de datos, reconocimiento de características, análisis de asociación, clasificación, agrupamiento, análisis de puntos atípicos y análisis de tendencias, etc. (Extracto de "Minería de datos: métodos y aplicaciones" Xu Hua)

Referencias

"Minería de datos: métodos y aplicaciones" por Xu Hua

Supongo que te gusta

Origin blog.csdn.net/weixin_53197693/article/details/129247208
Recomendado
Clasificación