Revisión final de [Minería de datos] (preguntas de papel de muestra + algunos puntos de conocimiento)

Tabla de contenido

Capítulo uno Introducción

1. Completa los espacios en blanco

(1) Desde una perspectiva técnica, la minería de datos es ( ). Desde una perspectiva comercial, la minería de datos es ( ).

Respuesta: Es el proceso de extraer información oculta, desconocida pero potencialmente útil de una gran cantidad de datos de aplicación práctica incompletos, ruidosos, confusos y aleatorios.
Una tecnología de procesamiento de información comercial, su característica principal es extraer, convertir, analizar y modelar una gran cantidad de datos comerciales y extraer datos clave para ayudar en la toma de decisiones comerciales.

(2) La información obtenida por minería de datos tiene tres características: ( ), efectiva y práctica.

Respuesta: Previamente desconocido.

2. Aplicación de la minería de datos en escenarios de la vida diaria

inserte la descripción de la imagen aquí

3. Distinguir entre minería de datos y consulta

Existe una diferencia esencial entre la minería de datos y los métodos tradicionales de análisis de datos (como: consulta, informe, análisis de aplicaciones en línea, etc.). La minería de datos es extraer información y descubrir conocimiento sin una premisa clara.
Ejemplo:
encontrar nombres de personas en una oración es minería de datos, y encontrar personas en una tabla es consultar

Capítulo 2 Fundamentos del procesamiento de datos

1. Completa los espacios en blanco

(1) Los datos son ( ), y los atributos se dividen en ( ).

A: Una colección de objetos de datos y sus atributos; atributos nominales y ordinales, atributos de intervalo y proporción.

2. Preguntas de cálculo

(1) Calcular la medida de similitud

El rango dado por el maestro:
medida de distancia (Manhattan, Europa):
inserte la descripción de la imagen aquí

Coeficiente de similitud (similitud del coseno):
inserte la descripción de la imagen aquí

Similitud de atributos binarios (coeficiente de relación de similitud de coincidencia simple d, s)
Coeficiente de Jaccard:
inserte la descripción de la imagen aquí

Ejemplo 1:

respuesta:

Ejemplo 2:

respuesta:

(2) Cálculo de características estadísticas de datos

Fórmula de registro:
media aritmética,
media aritmética ponderada
, media truncada: descarte los datos de % de extremo superior e inferior (p/2) y luego calcule la media.
Mediana,
cuartil,
columna central: (máx+mín)/
modo 2

respuesta:

3. Cuestionario

(1) ¿Por qué preprocesamiento de datos? Enumere tres técnicas de preprocesamiento de uso común.

Respuesta: El propósito del preprocesamiento de datos: proporcionar datos limpios, concisos y precisos, y mejorar la eficiencia y precisión de la minería.

Tecnología de preprocesamiento: limpieza de datos, integración de datos, transformación de datos, reducción de datos, discretización de datos.
①Limpieza de datos: los datos son incompletos, ruidosos e inconsistentes (llene los valores faltantes, elimine el ruido e identifique puntos discretos, corrija valores inconsistentes en los datos) ②Integración de datos (agregación): agregue los datos, combine dos o múltiples fuentes de datos
, almacenados en un dispositivo de almacenamiento de datos consistente.
③ Transformación de datos: transforme los datos en una forma adecuada para la minería. (Suavizado, agregación, generalización de datos, normalización, discretización de datos)
④Reducción de datos: incluye muestreo y selección de características.

4. Método de suavizado para datos con ruido

(1) Binning:
Paso 1: Los datos se dividen en n bins de igual profundidad
Paso 2: Usar promedio o suavizado de límites

Cuanto más profundo y ancho sea el contenedor, mejor será el efecto de suavizado.

(2) Agrupamiento: eliminar valores atípicos
(3) Regresión: encontrar una función adecuada

5. Transformación de datos

A. Estandarización

La normalización es la transformación de los valores métricos originales en valores adimensionales. (Escalado y mapeado a un nuevo rango de valores)
(1) Normalización mínimo-máximo (convertido a rango [0,1])
(2) Normalización de puntaje z (estandarización de la teoría de probabilidad)
(3) Estandarización de definición decimal (transformado en el formato de "nésima potencia de cero décimas × 10")

B. Estructura de características

Nuevo conjunto de características para barcos a partir de características originales.

C. Discretización de datos

Reemplace valores numéricos de atributos continuos con etiquetas de valor categórico. Se divide en discretización supervisada y no supervisada.
Métodos discretos no supervisados: (1) igual ancho (2) igual frecuencia (3) basado en análisis de conglomerados.
Métodos discretos supervisados: (1) Basados ​​en entropía: de arriba hacia abajo

6. Reducción de datos

A. Muestreo

lineas comprimidas

Hay tres métodos de muestreo. Con reemplazo, sin reemplazo, estratificación (p36)

B. Selección de características

número de columnas comprimidas

Subconjunto de funciones ideal: todas las funciones valiosas que no son de destino deben estar fuertemente correlacionadas con la función de destino, y las funciones que no son de destino deben estar no correlacionadas o débilmente correlacionadas.

Capítulo 3 Clasificación y regresión

1. Completa los espacios en blanco

(1) Los métodos para evaluar la precisión de los modelos de clasificación incluyen: ( ), ( ) y métodos de submuestreo aleatorio.

Respuesta: método de retención, validación cruzada k-fold.

2. Verdadero o Falso

(1) La salida de predicción de regresión es un valor continuo ( )

Respuesta: √
Salida de predicción de clasificación: valores de clase discretos (predecir una clase). La salida de la predicción de regresión es un valor continuo.

(2) El método de clasificación KNN requiere un modelado previo. ( )

Respuesta: ×
KNN es un método de aprendizaje pasivo sin modelado previo. Pasos básicos:
1 Calcular la distancia. Dado un objeto de prueba, calcule la distancia entre él y cada objeto en el conjunto de entrenamiento;
2 Encuentre vecinos. Encierre en un círculo los k objetos de entrenamiento más cercanos como vecinos del objeto de prueba.
3 Hacer clasificación. Clasifique el objeto de prueba según la categoría principal a la que pertenecen los k vecinos.

(3) El algoritmo AdaBoost es un algoritmo que reúne múltiples clasificadores para mejorar la precisión de la clasificación. ( )

Respuesta: √

3. Preguntas informáticas

Fórmula:
Información Entropía:
inserte la descripción de la imagen aquí

Ganancia de información:
inserte la descripción de la imagen aquí
Información dividida:
inserte la descripción de la imagen aquí
Tasa de ganancia de información:
inserte la descripción de la imagen aquí
Coeficiente de Gini:
inserte la descripción de la imagen aquí
Ganancia de coeficiente de Gini:
inserte la descripción de la imagen aquí

(1) Use el algoritmo ID3 para describir el proceso de construcción de un árbol de decisión

inserte la descripción de la imagen aquí
inserte la descripción de la imagen aquí
inserte la descripción de la imagen aquí

(2) Dado un determinado conjunto de datos meteorológicos, encuentre la ganancia de información, la tasa de ganancia de información y la ganancia del coeficiente de Gini.

inserte la descripción de la imagen aquí
(1) Paso:
Calcular la entropía E(S) del conjunto de datos Calcular la entropía E(Si) de los subconjuntos
divididos según la temperatura Calcular la suma de E temperatura(S) = (|Si|/|S|) * E(Si) Y calcule la ganancia de información Ganancia (S, temperatura)=E(S)-E temperatura(S)


inserte la descripción de la imagen aquí
inserte la descripción de la imagen aquí
inserte la descripción de la imagen aquí

(3) Preguntas de ejemplo del libro KNN

inserte la descripción de la imagen aquí
inserte la descripción de la imagen aquí

4. Cuestionario

(1) Escriba la fórmula bayesiana, proporcione los pasos del método naive bayesiano.

Respuesta: Fórmula: P(A|B) = P(B|A)*P(A) / P(B)
Pasos:
(La respuesta oficial es la siguiente, sé cada palabra, pero no puedo entenderla juntos…)

  1. Primero, de acuerdo con las muestras dadas con etiquetas de clase desconocidas, se calcula la probabilidad posterior de cada etiqueta de clase.
  2. Según la fórmula bayesiana, el cálculo de la probabilidad posterior se transforma en el cálculo del producto de probabilidad de la probabilidad condicional de cada atributo de la muestra y la probabilidad previa, que son fáciles de calcular a partir de las condiciones dadas.
  3. Tome la categoría con la probabilidad más alta entre los resultados de cálculo de varias categorías y clasifique las muestras en esta categoría.

(versión simplificada)

  1. Primero calcule la probabilidad de cada categoría ;
  2. Luego calcule la probabilidad de cada característica de los datos pronosticados bajo cada dimensión de clasificación ;
  3. Calcular según la dimensión de clasificación: probabilidad de clasificación * probabilidad de cada característica ;
  4. Seleccione el resultado más grande en el paso 3 como el resultado deseado;

(2) ¿Qué significa "ingenuo" en Naive Bayes? Describe brevemente la idea principal de Naive Bayes.

inserte la descripción de la imagen aquí

Capítulo 4 Análisis de conglomerados

1. Completa los espacios en blanco

(1) Los algoritmos de agrupamiento se dividen en métodos de división, métodos jerárquicos, métodos basados ​​en densidad, métodos basados ​​en gráficos y métodos basados ​​en modelos, entre los cuales k-means pertenece al método ( ) y DBSCAN pertenece al método ( ) .

A: División, basada en la densidad.

2. Verdadero o Falso

(1) Los algoritmos de agrupamiento de un solo paso pueden identificar grupos de formas arbitrarias. ( )

Respuesta: El
algoritmo ×-one-pass divide los datos en hiperesferas de casi el mismo tamaño y no se puede usar para encontrar grupos de formas no convexas.

(2) DBSCAN es relativamente resistente al ruido y capaz de identificar grupos de formas y tamaños arbitrarios. ( )

Respuesta: √
El algoritmo DBSCAN se basa en la densidad

(3) En el análisis de conglomerados, cuanto mayor sea la similitud dentro de un conglomerado, mayor será la diferencia entre los conglomerados y peor será el efecto de agrupamiento. ( )

Respuesta: ×
Un buen método de agrupamiento produce clústeres de alta calidad: alta similitud dentro del clúster, baja similitud entre clústeres.

3. Preguntas de cálculo

(1) algoritmo de k-medias

algoritmo:

inserte la descripción de la imagen aquí

tema:

inserte la descripción de la imagen aquí
respuesta:
inserte la descripción de la imagen aquí

4. Métodos típicos de agrupamiento

(1) Método de división: k-medias, algoritmo de un paso
(2) Método jerárquico: aglomeración (de abajo hacia arriba), método de agrupamiento jerárquico dividido (de arriba hacia abajo), CURE, BIRCH
(3) Método basado en la densidad: DBSCAN
( 4) Algoritmo de agrupamiento basado en gráficos: Chameleon, SNN
(5) Método basado en modelos

Insuficiencia de K-medias

(1) El número de conglomerados se da por adelantado
(2) La selección del valor inicial es extremadamente dependiente, y el algoritmo a menudo cae en una solución óptima local
(3) El algoritmo necesita clasificar y ajustar continuamente las muestras
(4) El punto de ruido y la distancia Sensible al conglomerado
(5) no puede encontrar conglomerados de forma no convexa, o conglomerados de varios tamaños o densidades
(6) solo se puede usar para conjuntos de datos con atributos numéricos

algoritmo de agrupamiento jerárquico

Tipos de arriba hacia abajo y de abajo hacia arriba.
Tres métodos mejorados de agrupamiento jerárquico aglomerativo (ascendente): BIRCH, ROCK, CURE.

Algoritmo de agrupamiento basado en la densidad DBSCAN

De acuerdo con la densidad de puntos, hay tres tipos de puntos:
(1) puntos centrales: puntos dentro del área densa
(2) puntos límite: puntos en el borde del área densa
(3) puntos de ruido o de fondo: puntos en el área escasa

Densidad directa alcanzable: p está dentro del vecindario Eps de q
Densidad alcanzable: hay conexiones dentro del rango Eps, ¡presta atención a la direccionalidad!
Conectado a la densidad: tanto p como q son alcanzables por densidad desde O con respecto a Eps y MinPts

Ejemplos de preguntas del libro de texto DBSCAN:

algoritmo:
inserte la descripción de la imagen aquí

tema:

inserte la descripción de la imagen aquí
inserte la descripción de la imagen aquí
inserte la descripción de la imagen aquí

Camaleón de algoritmo de agrupamiento basado en gráficos

El grado absoluto de interconexión EC (cuanto mayor sea EC, mayor será el grado de correlación, más debe fusionarse) El
grado relativo de interconexión RI (cuanto mayor sea RI, la conexión entre las dos clases no es muy diferente de la grado de conexión dentro de las dos clases, y puede ser una mejor conexión a tierra)

inserte la descripción de la imagen aquí

Estanqueidad absoluta S
Estanqueidad relativa RC

inserte la descripción de la imagen aquí

5. Evaluación del algoritmo de agrupamiento

(1) Normas Internas de Evaluación de la Calidad

El estándar de evaluación de calidad interna evalúa el efecto de agrupamiento calculando la similitud promedio dentro de un grupo, la similitud promedio entre grupos y la similitud general.

Por ejemplo:
Indicador CH:

inserte la descripción de la imagen aquí

Cuanto mayor sea CH (es decir, el aumento de traceB y la disminución de traceW), mayor será la diferencia entre los valores medios de cada grupo y mejor será el efecto de agrupación.
traceW min = 0, cada punto de una clase coincide, el efecto es bueno.

(2) Estándares de Evaluación de Calidad Externa

Los criterios de evaluación de la calidad externa se evalúan en base a un conjunto de datos de clasificación manual existente (ya se conoce la categoría de cada objeto).

Capítulo V Análisis de correlación

1. Completa los espacios en blanco

(1) El algoritmo de minería de reglas de asociación se puede dividir en dos pasos: ① ( ), ② ( ).

Respuesta: ① Generar conjuntos de elementos frecuentes: encuentre todos los conjuntos de elementos que cumplan con el umbral mínimo de soporte, es decir, conjuntos de elementos frecuentes.
②Generar reglas: extraer reglas mayores que el umbral de confianza de los conjuntos de elementos frecuentes encontrados en el paso anterior, es decir, reglas fuertes.

2. Verdadero o Falso

(1) Si el conjunto de elementos X es un conjunto de elementos frecuente, entonces el subconjunto de X debe ser un conjunto de elementos frecuente ( )

Respuesta: √

(2) Los conjuntos de elementos con mayor apoyo deben tener mayor confianza ( )

Respuesta: ×
inserte la descripción de la imagen aquí

3. Preguntas de cálculo

Algoritmo previo:

inserte la descripción de la imagen aquí

(1) Los datos conocidos de la cesta de la compra se muestran en la tabla de abajo a la derecha, complete las siguientes tareas

inserte la descripción de la imagen aquí
Respuesta: (Después de verificar, se descubrió que el conjunto de 2 elementos no tenía {pan, huevos}: 1, {cerveza, huevos}: 1, {pañales, huevos}: 1, pero tiene poco efecto en el resultado final). (
inserte la descripción de la imagen aquí
2 )
apoyo ({pan}->{pañal}) = 3/5
confianza ({pan}->{pañal}) = 3/4 <80%
por lo que no es una regla de asociación fuerte.

4. Escenarios de aplicación de análisis de asociación

(1) Extraer los datos de ventas de los centros comerciales , descubrir la relación entre los productos y ayudar a los centros comerciales a realizar promociones y colocar en los estantes.
(2) Minería de datos de diagnóstico médico , puede encontrar la relación entre ciertos síntomas y una determinada enfermedad, y diagnosticar enfermedades para los médicos
(3) Minería de páginas web : revelar enlaces interesantes entre diferentes páginas web visitadas.

5. El concepto de análisis de asociación

(1) Conjunto de elementos: un conjunto de elementos que contiene k elementos de datos se denomina conjunto de elementos k.
(2) Conjuntos de elementos frecuentes: si el soporte de un conjunto de elementos es mayor o igual a un determinado umbral , se denomina conjunto de elementos frecuentes.
(3) Recuento de soporte: el número de ocurrencias de un conjunto de elementos, es decir, el número de transacciones que incluyen el conjunto de elementos en el conjunto completo de datos de transacciones.
(4) Reglas de asociación: Implicaciones de la forma X->Y
(5) Soporte:
inserte la descripción de la imagen aquí

(6) Confianza:
inserte la descripción de la imagen aquí
(7) Reglas de asociación fuertes: Reglas de asociación mayores que el umbral mínimo de soporte y el umbral mínimo de confianza.

6, aritmética a priori

Propiedad a priori: cualquier subconjunto de un conjunto de elementos frecuente también debe ser un conjunto de elementos frecuente.
Corolario: si un conjunto de elementos es infrecuente, su superconjunto también lo es.
El algoritmo incluye dos pasos de conexión y poda .

7. Análisis de correlación

(1) Ascensor (ascensor). Su valor es mayor a 1, indicando que existe correlación positiva entre ambos; menor a 1, correlación negativa; igual a 1, no existe correlación.
inserte la descripción de la imagen aquí
(2) Factor de interés
(3) Coeficiente de correlación
(4) Medida del coseno

8. Cálculo del número de conjuntos de elementos

1. Dados k elementos, hay 2k-1 conjuntos de elementos en total.
2. Hay reglas de asociación de candidatos 2k-2 para conjuntos de elementos k frecuentes (excluyendo L->ᴓ y ᴓ->L)

Capítulo 6 Minería atípica

1. Verdadero o Falso

(1) Si un objeto no pertenece fuertemente a ningún grupo, entonces el objeto es un valor atípico basado en el agrupamiento ( ).

Respuesta: √

2. Preguntas de cálculo

(1) Dado un conjunto de datos bidimensionales, las coordenadas de los puntos son las siguientes, tome k=3, use el algoritmo de k-medias para encontrar el factor atípico OF1 de los puntos p14 y p16, qué punto es más probable que sea un punto anormal?

inserte la descripción de la imagen aquí
respuesta:
inserte la descripción de la imagen aquí
inserte la descripción de la imagen aquí

3. Cuestionario

(1) ¿Qué es un valor atípico? ¿El valor atípico detectado por el algoritmo de minería de valores atípicos corresponde necesariamente al comportamiento anormal real? En caso afirmativo, explique; en caso negativo, proporcione un contraejemplo.

Respuesta: Los valores atípicos son datos que se desvían de la mayoría de los datos del conjunto de datos , lo que hace que las personas sospechen que la desviación de estos datos no se genera por factores aleatorios , sino por diferentes mecanismos .
En general, los valores atípicos pueden corresponder a un comportamiento anormal real. Dado que el mecanismo de generación de valores atípicos es incierto, si el "valor atípico" detectado por el algoritmo de minería de valores atípicos corresponde al comportamiento anormal real no debe ser explicado y explicado por el algoritmo de minería de valores atípicos, y solo puede ser explicado por los expertos del dominio para explicar .
Los valores atípicos pueden ser causados ​​por errores de medición, de entrada o de operación del sistema, o pueden ser determinados por las características inherentes de los datos, o causados ​​por el comportamiento anormal del objeto.
Por ejemplo: una edad de -999 puede deberse a que el programa procesa datos predeterminados y establece valores predeterminados. El salario de los altos directivos de una empresa es significativamente más alto que el de los empleados ordinarios, lo que puede convertirse en datos atípicos, pero son datos razonables. El costo de un teléfono residencial aumentó de menos de 200 yuanes por mes a miles de yuanes, lo que puede deberse a llamadas robadas u otras razones especiales. Aparentemente, los cargos altos en una tarjeta de crédito pueden deberse al robo de la tarjeta.

4. Las causas de los valores atípicos

(1) Causado por medición, error de entrada o error de operación del sistema
(2) Determinado por las características inherentes de los datos
(3) Causado por el comportamiento anormal del objeto

5. Tres cuestiones a tratar en la minería de valores atípicos

inserte la descripción de la imagen aquí

6. Métodos estadísticos

Los datos que no concuerdan con el modelo se identifican como valores atípicos. Un objeto se considera atípico si su modelo de distribución de probabilidad con respecto a los datos tiene un valor de probabilidad bajo.
Los modelos de distribución de probabilidad se crean a partir de datos mediante la estimación de parámetros de distribución especificados por el usuario.

Diagrama de control de calidad

inserte la descripción de la imagen aquí

inserte la descripción de la imagen aquí

7. Métodos basados ​​en la distancia

(1) Factor de valor atípico del punto x: cuanto mayor es OF1, más atípico es el punto x.
inserte la descripción de la imagen aquí

inserte la descripción de la imagen aquí

Ejemplo de libro de texto: Calcular OF1

inserte la descripción de la imagen aquí
inserte la descripción de la imagen aquí

8. Método basado en la densidad relativa

(1) Densidad del vecindario local:
inserte la descripción de la imagen aquí

(2) Densidad relativa: los valores atípicos se detectan comparando la densidad de un objeto con la densidad promedio de los objetos en su vecindad.

inserte la descripción de la imagen aquí

Ejemplo de libro de texto: Calcular OF3

inserte la descripción de la imagen aquí

inserte la descripción de la imagen aquí

9. Métodos basados ​​en agrupamiento

Métodos de detección de valores atípicos de datos dinámicos y estáticos:
inserte la descripción de la imagen aquí

10. Evaluación de métodos de minería atípica

Matriz de mezcla:
inserte la descripción de la imagen aquí

Dos indicadores de la precisión del método de extracción de valores atípicos:
(1) tasa de detección
(2) tasa de falsas alarmas
inserte la descripción de la imagen aquí

Eso es todo al respecto.
FIN

Supongo que te gusta

Origin blog.csdn.net/qq_51669241/article/details/125154143
Recomendado
Clasificación