Esquema de revisión de minería de datos de la Universidad de Ciencia y Tecnología de Hunan

Más información sobre el 8 de enero de 2021: según las fuentes: los algoritmos Apriori y K-mean se prueban con una alta probabilidad de preguntas integrales

1. Preguntas de opción múltiple. (2 puntos para cada uno, 20 puntos en total para esta pregunta)

2. Escriba las ideas principales de los siguientes algoritmos (5 puntos por cada pregunta, 20 puntos en total para esta pregunta)
     1. Las ideas principales del modelo ARMA.

Puede entenderse como la combinación del modelo autorregresivo AR (p) y el modelo de promedio móvil MA (q). ARMA, como el modelo de series de tiempo financiero combinado de los dos, puede capturar el impulso, los efectos de regresión media y los efectos de choque.

 


     2. La idea principal del algoritmo PageRank.


     3. La idea principal del algoritmo EM (expectativa máxima)

El algoritmo EM es una estrategia de optimización iterativa.Cada iteración en su método de cálculo se divide en dos pasos, uno de los cuales es el paso deseado (paso E) y el otro es el paso máximo (paso M).

La idea básica es: Primero, de acuerdo con los datos observados para estimar los valores de los parámetros del modelo ; luego estimados en base al paso de los valores de los parámetros estimados valores de datos faltantes , y luego basados ​​en los datos faltantes estimados más ya antes de Reestimar los valores de los parámetros de los datos observados y luego iterar repetidamente hasta que finalmente converja , y la iteración finaliza.


3. Preguntas de respuesta corta (10 puntos por cada pregunta, 30 puntos en total para esta pregunta)
1. Pasos de clasificación y funciones de KDD (Descubrimiento de conocimientos en la base de datos)

1. Definición del problema
2. Recopilación de datos
3. Procesamiento previo de datos (incluidos cinco pasos): limpieza de datos, conversión de datos, descripción de datos, selección de características, extracción de características 

4. Minería de datos

5. Evaluación del modelo


2. Los pasos de la clasificación de datos y sus tareas básicas.

Dos pasos de clasificación de datos:

1 . Construir un modelo

Las tuplas de datos también se denominan muestras, instancias u objetos.
Las tuplas de datos analizadas para construir el modelo forman un conjunto de datos de entrenamiento .
Una única tupla en el conjunto de datos de entrenamiento se denomina muestra de entrenamiento . Dado que se proporciona la etiqueta de clase de cada muestra de entrenamiento , también se denomina aprendizaje supervisado.
El modelo de clasificación se construye analizando el conjunto de datos de entrenamiento, que se puede proporcionar en forma de reglas de clasificación, árboles de decisión o fórmulas matemáticas.
 
2 . Usa el modelo para clasificar
Precisión de la predicción del primer modelo de evaluación (taxonomía).
Si la precisión del modelo se considera aceptable, se puede utilizar para clasificar tuplas de datos u objetos con etiquetas de clase desconocidas .



3. Razones y estrategias de la poda de árboles de decisión

Motivo: para evitar sobreajustar muestras del árbol de decisión. El árbol de decisión generado por el algoritmo anterior es muy detallado y enorme, y cada atributo se considera en detalle Las muestras de entrenamiento cubiertas por los nodos hoja del árbol de decisión son todas "puras". Por lo tanto, si usa este árbol de decisión para clasificar las muestras de entrenamiento, encontrará que para las muestras de entrenamiento , el árbol funciona bien, tiene una tasa de error extremadamente baja y puede clasificar correctamente las muestras en el conjunto de muestras de entrenamiento. El árbol de decisiones también aprenderá los datos incorrectos en la muestra de entrenamiento y se convertirán en parte del árbol de decisiones, pero el rendimiento de los datos de prueba no es tan bueno o extremadamente malo como se esperaba. Este es el llamado problema de sobreajuste.

Estrategia:

         Poda previa: poda del árbol de decisión deteniendo la construcción del árbol por adelantado

         Después de la poda, la poda se realiza en el árbol de decisión de sobreajuste generado y se puede obtener una versión simplificada del árbol de decisión de poda.
4. ¿Cuáles son los métodos para medir la distancia entre muestras y clases?

El método de distancia más corta : Defina la distancia entre los dos elementos más cercanos en dos clases como la distancia entre clases.

Método de distancia más larga: defina la distancia entre los dos elementos más lejanos en dos clases como la distancia entre clases.

Método del centro: defina la distancia entre los dos centros de las dos clases como la distancia entre clases.

Método de promedio de clase: calcula la distancia entre dos elementos cualesquiera en dos clases y los integra en la distancia entre clases.

La suma de las desviaciones al cuadrado: el diámetro de una clase refleja la diferencia entre los elementos de la clase y se puede definir como la suma de las distancias euclidianas de cada elemento de la clase al centro de la clase.


5. El concepto de minería de series de tiempo

Una serie de tiempo se refiere a una serie de valores del mismo indicador estadístico ordenados en el orden en que ocurren (una secuencia de observaciones en un intervalo de tiempo uniforme).

El objetivo principal del análisis de series de tiempo es predecir el futuro en función de los datos históricos existentes.

La minería de series de tiempo consiste en extraer información y conocimiento relacionados con los atributos de tiempo que las personas no conocen de antemano pero que son potencialmente útiles a partir de una gran cantidad de datos de series de tiempo, y usarlos para pronósticos a corto, mediano o largo plazo para orientar las actividades sociales, económicas, militares y de vida de las personas. A través del análisis de registro objetivo de comportamientos históricos pasados, revela sus leyes inherentes y luego completa las tareas de toma de decisiones, como predecir comportamientos futuros.

6. La importancia de la minería de datos web

1. Descubra información que interesa a los usuarios a partir de una gran cantidad de información

2. Convierta la rica información de la Web en conocimientos útiles

3. Personalice la información del usuario

7. La principal diferencia entre los algoritmos de minería de secuencias AprioriAll y AprioriSome

Libro P220
IV. Preguntas integrales (15 puntos por cada pregunta, 30 puntos en total para esta pregunta)

1. La idea principal del algoritmo Apriori, el proceso de generar conjuntos de elementos frecuentes y reglas de asociación sólidas (obligatorio)

La idea central es: conectar el paso y el paso de poda. El paso de conexión es la autoconexión, y el principio es garantizar que los primeros k-2 elementos sean iguales y estén conectados en orden lexicográfico. El paso de poda es hacer que todos los subconjuntos no vacíos de cualquier conjunto de elementos frecuentes también sean frecuentes. Por el contrario, si un

Si el subconjunto no vacío de un candidato no es frecuente, entonces el candidato definitivamente no es frecuente, por lo que se puede eliminar de CK. En pocas palabras, 1. Encuentre conjuntos de elementos frecuentes, el proceso es (1) escanear (2) contar (3) comparar (4) generar conjuntos de elementos frecuentes (5) unir y podar, generar conjuntos de elementos candidatos, repetir el paso (1) ~ (5) ) Hasta que no se pueda encontrar un conjunto de frecuencias mayor

Fuente de referencia: https://blog.csdn.net/lizhengnanhua/article/details/9061755?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromBaidu-1.control&depth_1-utm_source=distribute.logpc_relevant.bone-task -BlogCommendFromBaidu-1.control

Video tutorial recomendado: https://www.bilibili.com/video/BV1AJ411x7sf?from=search&seid=9854295243924040456

El algoritmo Apriori tiene dos cuellos de botella de rendimiento fatales :

1 . Escanear la base de datos de transacciones varias veces requiere una gran carga de E / S
 
2 . Puede producir un gran conjunto de candidatos
    

2. La idea principal, el proceso de clasificación y los resultados del algoritmo de clasificación KNN (k campo más cercano)

        K- Vecinos más cercanos ( K vecinos más cercanos , KNN para abreviar ) calcula la distancia desde cada dato de entrenamiento hasta la tupla que se va a clasificar, y toma los datos de entrenamiento K más cercanos a la tupla que se va a clasificar, y qué categoría de datos de entrenamiento se encuentra entre los K datos Si es mayoritario, a qué categoría pertenece la tupla a clasificar.

算法 4-2  K-近邻分类算法
输入:  训练数据T;近邻数目K;待分类的元组t。 
输出:  输出类别c。 
(1)N=Ø;
(2)FOR each d ∈T DO BEGIN
(3)   IF |N|≤K THEN
(4)    N=N∪{d};    
(5)   ELSE
(6)	 IF  ∃ u ∈N  such that sim(t,u)〈sim(t,d) THEN BEGIN 
(7)	     N=N-{u};
(8)	     N=N∪{d};
(9)	  END
(10)END
(11)c=class to which the most u∈N. 



3. La idea principal, el proceso de clasificación y los resultados del algoritmo de clasificación del árbol de decisión ID3

Algoritmo ID3 : El dicotomizador iterativo 3 , árbol binario iterativo de 3 generaciones, es un algoritmo codicioso.
El algoritmo ID3 fue originalmente un algoritmo de predicción de clasificación propuesto por J. Ross Quinlan en la Universidad de Sydney en 1975. El núcleo del algoritmo es la "entropía de la información".
El algoritmo ID3 calcula la ganancia de información de cada atributo y considera que el atributo con alta ganancia de información es un buen atributo. Cada vez que se selecciona el atributo con mayor ganancia de información como estándar de partición, este proceso se repite hasta obtener un árbol de decisión que pueda Se generan ejemplos de formación perfectamente clasificados.
 
La idea central del algoritmo ID3:
     Antes de dividir cada nodo no hoja del árbol de decisión, primero calcule la ganancia de información aportada por cada atributo y seleccione el atributo con la mayor ganancia de información para dividir , porque cuanto mayor sea la ganancia de información, mayor será la capacidad para distinguir muestras y la mejor representatividad, obviamente esta es una estrategia codiciosa de arriba hacia abajo.
 


4. La idea principal, el proceso de clasificación y el resultado del algoritmo de clasificación del árbol de decisión C4.5 5. La idea principal, el proceso de clasificación y el resultado de

Bayes (Bayes)

El método bayesiano utiliza el conocimiento de la probabilidad y la estadística para clasificar el conjunto de datos de la muestra, que se caracteriza por una combinación de probabilidad previa y probabilidad posterior que evita el uso de la probabilidad a priori de prejuicio a cargo, pero también evita el uso de un fenómeno de sobreajuste de información de muestra separada. .
 
El método ingenuo de Bayes se basa en el teorema de Bayes en el que se clasifica el supuesto de independencia condicional . Es decir, se supone que los atributos son condicionalmente independientes entre sí cuando se da el valor objetivo. Es decir, ninguna variable de atributo tiene una proporción mayor con el resultado de la decisión y ninguna variable de atributo tiene una proporción menor con el resultado de la decisión. Aunque este método de simplificación reduce el efecto de clasificación del algoritmo de clasificación bayesiano hasta cierto punto, simplifica enormemente la complejidad del método bayesiano en escenarios de aplicación reales.
 
Clasificación bayesiana
Sean X e Y dos variables aleatorias y obtenga la fórmula bayesiana:
P (Y) se llama probabilidad previa, P (Y | X) se llama probabilidad posterior y P (Y, X) es la probabilidad conjunta.
La probabilidad a priori se refiere a la probabilidad obtenida en base a la experiencia y el análisis anteriores.
Probabilidad posterior , algo ha sucedido, puede haber muchas razones para ello, y es la probabilidad de juzgar qué razón causó la cosa cuando sucedió.
La probabilidad conjunta es la probabilidad de que dos eventos representen una ocurrencia común.
 
 

6. La idea principal, el proceso de agrupamiento y los resultados del algoritmo de agrupamiento de k-mean (k-mean)

      El algoritmo primero selecciona aleatoriamente k objetos, y cada objeto inicialmente representa el valor promedio o el centro de un grupo. Para cada objeto restante, asígnelo al grupo más cercano de acuerdo con su distancia desde el centro de cada grupo. Luego, vuelva a calcular el promedio de cada grupo. Este proceso se repite hasta que converge la función de criterio.

ejemplo:

7. La idea principal, el proceso de agrupación y los resultados del algoritmo de agrupación de PAM (partición alrededor del punto central) (no se considera de alta probabilidad)


Patrones frecuentes y reglas de asociación

El problema de las reglas de asociación minera se puede dividir en dos subproblemas:
1. Buscar todos los conjuntos de elementos frecuentes: busque todos los conjuntos de elementos frecuentes o los conjuntos de elementos frecuentes más grandes a través del Minsupport proporcionado por el usuario .

 2. Busque reglas de asociación de conjuntos de elementos frecuentes: busque reglas de asociación en elementos frecuentes establecidos a través del Minconfidence proporcionado por el usuario

 

Revise el esquema PPT:

1. ¿Qué es la minería de datos? 

      La minería de datos es el proceso de analizar una gran cantidad de datos recopilados con técnicas apropiadas de minería de datos y descubrimiento de conocimientos, extrayendo información útil y formando conclusiones, y luego el proceso de investigación detallada y generalización de los datos.

        2. ¿Qué es el aprendizaje automático?

              Especializada en el estudio de cómo las computadoras simulan o realizan conductas de aprendizaje humano con el fin de adquirir nuevos conocimientos o habilidades, y reorganizar la estructura de conocimiento existente para mejorar continuamente su propio desempeño.

        3. ¿Qué es Big Data?

              Se refiere a una recopilación de datos a gran escala que supera en gran medida las capacidades de las herramientas de software de base de datos tradicionales en términos de adquisición, almacenamiento, gestión y análisis. Tiene las cuatro características de escala masiva de datos, circulación rápida de datos, diversos tipos de datos y baja densidad de valor.

        4. ¿Qué es la minería de contenido web?

              Integrar, generalizar y clasificar todo tipo de información en las páginas web del sitio , y minar el modo de conocimiento contenido en ciertos tipos de información.

        5. ¿Cuáles son las clasificaciones adecuadas?

             Sobreajuste, ajuste, desajuste

        6. El concepto básico de agrupación en clústeres

             Análisis de conglomerados: Dado un grupo de objetos, según la información de descripción, se descubren objetos con características comunes entre ellos para formar un conglomerado .

        7. Funciones de distancia comunes

             1. Distancia euclidiana 2. Distancia Manhattan 3. Distancia Minkowski 4. Distancia coseno 5. Distancia Jaccard

Supongo que te gusta

Origin blog.csdn.net/Zhongtongyi/article/details/112135298
Recomendado
Clasificación