Tabla de contenido
- Capítulo uno Introducción
- Capítulo 2 Fundamentos del procesamiento de datos
- Capítulo 3 Clasificación y regresión
- Capítulo 4 Análisis de conglomerados
-
- 1. Completa los espacios en blanco
- 2. Verdadero o Falso
-
- (1) Los algoritmos de agrupamiento de un solo paso pueden identificar grupos de formas arbitrarias. ( )
- (2) DBSCAN es relativamente resistente al ruido y capaz de identificar grupos de formas y tamaños arbitrarios. ( )
- (3) En el análisis de conglomerados, cuanto mayor sea la similitud dentro de un conglomerado, mayor será la diferencia entre los conglomerados y peor será el efecto de agrupamiento. ( )
- 3. Preguntas de cálculo
- 4. Métodos típicos de agrupamiento
- 5. Evaluación del algoritmo de agrupamiento
- Capítulo V Análisis de correlación
- Capítulo 6 Minería atípica
-
- 1. Verdadero o Falso
- 2. Preguntas de cálculo
- 3. Cuestionario
- 4. Las causas de los valores atípicos
- 5. Tres cuestiones a tratar en la minería de valores atípicos
- 6. Métodos estadísticos
- 7. Métodos basados en la distancia
- 8. Método basado en la densidad relativa
- 9. Métodos basados en agrupamiento
- 10. Evaluación de métodos de minería atípica
Capítulo uno Introducción
1. Completa los espacios en blanco
(1) Desde una perspectiva técnica, la minería de datos es ( ). Desde una perspectiva comercial, la minería de datos es ( ).
Respuesta: Es el proceso de extraer información oculta, desconocida pero potencialmente útil de una gran cantidad de datos de aplicación práctica incompletos, ruidosos, confusos y aleatorios.
Una tecnología de procesamiento de información comercial, su característica principal es extraer, convertir, analizar y modelar una gran cantidad de datos comerciales y extraer datos clave para ayudar en la toma de decisiones comerciales.
(2) La información obtenida por minería de datos tiene tres características: ( ), efectiva y práctica.
Respuesta: Previamente desconocido.
2. Aplicación de la minería de datos en escenarios de la vida diaria
3. Distinguir entre minería de datos y consulta
Existe una diferencia esencial entre la minería de datos y los métodos tradicionales de análisis de datos (como: consulta, informe, análisis de aplicaciones en línea, etc.). La minería de datos es extraer información y descubrir conocimiento sin una premisa clara.
Ejemplo:
encontrar nombres de personas en una oración es minería de datos, y encontrar personas en una tabla es consultar
Capítulo 2 Fundamentos del procesamiento de datos
1. Completa los espacios en blanco
(1) Los datos son ( ), y los atributos se dividen en ( ).
A: Una colección de objetos de datos y sus atributos; atributos nominales y ordinales, atributos de intervalo y proporción.
2. Preguntas de cálculo
(1) Calcular la medida de similitud
El rango dado por el maestro:
medida de distancia (Manhattan, Europa):
Coeficiente de similitud (similitud del coseno):
Similitud de atributos binarios (coeficiente de relación de similitud de coincidencia simple d, s)
Coeficiente de Jaccard:
Ejemplo 1:
respuesta:
Ejemplo 2:
respuesta:
(2) Cálculo de características estadísticas de datos
Fórmula de registro:
media aritmética,
media aritmética ponderada
, media truncada: descarte los datos de % de extremo superior e inferior (p/2) y luego calcule la media.
Mediana,
cuartil,
columna central: (máx+mín)/
modo 2
respuesta:
3. Cuestionario
(1) ¿Por qué preprocesamiento de datos? Enumere tres técnicas de preprocesamiento de uso común.
Respuesta: El propósito del preprocesamiento de datos: proporcionar datos limpios, concisos y precisos, y mejorar la eficiencia y precisión de la minería.
Tecnología de preprocesamiento: limpieza de datos, integración de datos, transformación de datos, reducción de datos, discretización de datos.
①Limpieza de datos: los datos son incompletos, ruidosos e inconsistentes (llene los valores faltantes, elimine el ruido e identifique puntos discretos, corrija valores inconsistentes en los datos) ②Integración de datos (agregación): agregue los datos, combine dos o múltiples fuentes de datos
, almacenados en un dispositivo de almacenamiento de datos consistente.
③ Transformación de datos: transforme los datos en una forma adecuada para la minería. (Suavizado, agregación, generalización de datos, normalización, discretización de datos)
④Reducción de datos: incluye muestreo y selección de características.
4. Método de suavizado para datos con ruido
(1) Binning:
Paso 1: Los datos se dividen en n bins de igual profundidad
Paso 2: Usar promedio o suavizado de límites
Cuanto más profundo y ancho sea el contenedor, mejor será el efecto de suavizado.
(2) Agrupamiento: eliminar valores atípicos
(3) Regresión: encontrar una función adecuada
5. Transformación de datos
A. Estandarización
La normalización es la transformación de los valores métricos originales en valores adimensionales. (Escalado y mapeado a un nuevo rango de valores)
(1) Normalización mínimo-máximo (convertido a rango [0,1])
(2) Normalización de puntaje z (estandarización de la teoría de probabilidad)
(3) Estandarización de definición decimal (transformado en el formato de "nésima potencia de cero décimas × 10")
B. Estructura de características
Nuevo conjunto de características para barcos a partir de características originales.
C. Discretización de datos
Reemplace valores numéricos de atributos continuos con etiquetas de valor categórico. Se divide en discretización supervisada y no supervisada.
Métodos discretos no supervisados: (1) igual ancho (2) igual frecuencia (3) basado en análisis de conglomerados.
Métodos discretos supervisados: (1) Basados en entropía: de arriba hacia abajo
6. Reducción de datos
A. Muestreo
lineas comprimidas
Hay tres métodos de muestreo. Con reemplazo, sin reemplazo, estratificación (p36)
B. Selección de características
número de columnas comprimidas
Subconjunto de funciones ideal: todas las funciones valiosas que no son de destino deben estar fuertemente correlacionadas con la función de destino, y las funciones que no son de destino deben estar no correlacionadas o débilmente correlacionadas.
Capítulo 3 Clasificación y regresión
1. Completa los espacios en blanco
(1) Los métodos para evaluar la precisión de los modelos de clasificación incluyen: ( ), ( ) y métodos de submuestreo aleatorio.
Respuesta: método de retención, validación cruzada k-fold.
2. Verdadero o Falso
(1) La salida de predicción de regresión es un valor continuo ( )
Respuesta: √
Salida de predicción de clasificación: valores de clase discretos (predecir una clase). La salida de la predicción de regresión es un valor continuo.
(2) El método de clasificación KNN requiere un modelado previo. ( )
Respuesta: ×
KNN es un método de aprendizaje pasivo sin modelado previo. Pasos básicos:
1 Calcular la distancia. Dado un objeto de prueba, calcule la distancia entre él y cada objeto en el conjunto de entrenamiento;
2 Encuentre vecinos. Encierre en un círculo los k objetos de entrenamiento más cercanos como vecinos del objeto de prueba.
3 Hacer clasificación. Clasifique el objeto de prueba según la categoría principal a la que pertenecen los k vecinos.
(3) El algoritmo AdaBoost es un algoritmo que reúne múltiples clasificadores para mejorar la precisión de la clasificación. ( )
Respuesta: √
3. Preguntas informáticas
Fórmula:
Información Entropía:
Ganancia de información:
Información dividida:
Tasa de ganancia de información:
Coeficiente de Gini:
Ganancia de coeficiente de Gini:
(1) Use el algoritmo ID3 para describir el proceso de construcción de un árbol de decisión
(2) Dado un determinado conjunto de datos meteorológicos, encuentre la ganancia de información, la tasa de ganancia de información y la ganancia del coeficiente de Gini.
(1) Paso:
Calcular la entropía E(S) del conjunto de datos Calcular la entropía E(Si) de los subconjuntos
divididos según la temperatura Calcular la suma de E temperatura(S) = (|Si|/|S|) * E(Si) Y calcule la ganancia de información Ganancia (S, temperatura)=E(S)-E temperatura(S)
(3) Preguntas de ejemplo del libro KNN
4. Cuestionario
(1) Escriba la fórmula bayesiana, proporcione los pasos del método naive bayesiano.
Respuesta: Fórmula: P(A|B) = P(B|A)*P(A) / P(B)
Pasos:
(La respuesta oficial es la siguiente, sé cada palabra, pero no puedo entenderla juntos…)
- Primero, de acuerdo con las muestras dadas con etiquetas de clase desconocidas, se calcula la probabilidad posterior de cada etiqueta de clase.
- Según la fórmula bayesiana, el cálculo de la probabilidad posterior se transforma en el cálculo del producto de probabilidad de la probabilidad condicional de cada atributo de la muestra y la probabilidad previa, que son fáciles de calcular a partir de las condiciones dadas.
- Tome la categoría con la probabilidad más alta entre los resultados de cálculo de varias categorías y clasifique las muestras en esta categoría.
(versión simplificada)
- Primero calcule la probabilidad de cada categoría ;
- Luego calcule la probabilidad de cada característica de los datos pronosticados bajo cada dimensión de clasificación ;
- Calcular según la dimensión de clasificación: probabilidad de clasificación * probabilidad de cada característica ;
- Seleccione el resultado más grande en el paso 3 como el resultado deseado;
(2) ¿Qué significa "ingenuo" en Naive Bayes? Describe brevemente la idea principal de Naive Bayes.
Capítulo 4 Análisis de conglomerados
1. Completa los espacios en blanco
(1) Los algoritmos de agrupamiento se dividen en métodos de división, métodos jerárquicos, métodos basados en densidad, métodos basados en gráficos y métodos basados en modelos, entre los cuales k-means pertenece al método ( ) y DBSCAN pertenece al método ( ) .
A: División, basada en la densidad.
2. Verdadero o Falso
(1) Los algoritmos de agrupamiento de un solo paso pueden identificar grupos de formas arbitrarias. ( )
Respuesta: El
algoritmo ×-one-pass divide los datos en hiperesferas de casi el mismo tamaño y no se puede usar para encontrar grupos de formas no convexas.
(2) DBSCAN es relativamente resistente al ruido y capaz de identificar grupos de formas y tamaños arbitrarios. ( )
Respuesta: √
El algoritmo DBSCAN se basa en la densidad
(3) En el análisis de conglomerados, cuanto mayor sea la similitud dentro de un conglomerado, mayor será la diferencia entre los conglomerados y peor será el efecto de agrupamiento. ( )
Respuesta: ×
Un buen método de agrupamiento produce clústeres de alta calidad: alta similitud dentro del clúster, baja similitud entre clústeres.
3. Preguntas de cálculo
(1) algoritmo de k-medias
algoritmo:
tema:
respuesta:
4. Métodos típicos de agrupamiento
(1) Método de división: k-medias, algoritmo de un paso
(2) Método jerárquico: aglomeración (de abajo hacia arriba), método de agrupamiento jerárquico dividido (de arriba hacia abajo), CURE, BIRCH
(3) Método basado en la densidad: DBSCAN
( 4) Algoritmo de agrupamiento basado en gráficos: Chameleon, SNN
(5) Método basado en modelos
Insuficiencia de K-medias
(1) El número de conglomerados se da por adelantado
(2) La selección del valor inicial es extremadamente dependiente, y el algoritmo a menudo cae en una solución óptima local
(3) El algoritmo necesita clasificar y ajustar continuamente las muestras
(4) El punto de ruido y la distancia Sensible al conglomerado
(5) no puede encontrar conglomerados de forma no convexa, o conglomerados de varios tamaños o densidades
(6) solo se puede usar para conjuntos de datos con atributos numéricos
algoritmo de agrupamiento jerárquico
Tipos de arriba hacia abajo y de abajo hacia arriba.
Tres métodos mejorados de agrupamiento jerárquico aglomerativo (ascendente): BIRCH, ROCK, CURE.
Algoritmo de agrupamiento basado en la densidad DBSCAN
De acuerdo con la densidad de puntos, hay tres tipos de puntos:
(1) puntos centrales: puntos dentro del área densa
(2) puntos límite: puntos en el borde del área densa
(3) puntos de ruido o de fondo: puntos en el área escasa
Densidad directa alcanzable: p está dentro del vecindario Eps de q
Densidad alcanzable: hay conexiones dentro del rango Eps, ¡presta atención a la direccionalidad!
Conectado a la densidad: tanto p como q son alcanzables por densidad desde O con respecto a Eps y MinPts
Ejemplos de preguntas del libro de texto DBSCAN:
algoritmo:
tema:
Camaleón de algoritmo de agrupamiento basado en gráficos
El grado absoluto de interconexión EC (cuanto mayor sea EC, mayor será el grado de correlación, más debe fusionarse) El
grado relativo de interconexión RI (cuanto mayor sea RI, la conexión entre las dos clases no es muy diferente de la grado de conexión dentro de las dos clases, y puede ser una mejor conexión a tierra)
Estanqueidad absoluta S
Estanqueidad relativa RC
5. Evaluación del algoritmo de agrupamiento
(1) Normas Internas de Evaluación de la Calidad
El estándar de evaluación de calidad interna evalúa el efecto de agrupamiento calculando la similitud promedio dentro de un grupo, la similitud promedio entre grupos y la similitud general.
Por ejemplo:
Indicador CH:
Cuanto mayor sea CH (es decir, el aumento de traceB y la disminución de traceW), mayor será la diferencia entre los valores medios de cada grupo y mejor será el efecto de agrupación.
traceW min = 0, cada punto de una clase coincide, el efecto es bueno.
(2) Estándares de Evaluación de Calidad Externa
Los criterios de evaluación de la calidad externa se evalúan en base a un conjunto de datos de clasificación manual existente (ya se conoce la categoría de cada objeto).
Capítulo V Análisis de correlación
1. Completa los espacios en blanco
(1) El algoritmo de minería de reglas de asociación se puede dividir en dos pasos: ① ( ), ② ( ).
Respuesta: ① Generar conjuntos de elementos frecuentes: encuentre todos los conjuntos de elementos que cumplan con el umbral mínimo de soporte, es decir, conjuntos de elementos frecuentes.
②Generar reglas: extraer reglas mayores que el umbral de confianza de los conjuntos de elementos frecuentes encontrados en el paso anterior, es decir, reglas fuertes.
2. Verdadero o Falso
(1) Si el conjunto de elementos X es un conjunto de elementos frecuente, entonces el subconjunto de X debe ser un conjunto de elementos frecuente ( )
Respuesta: √
(2) Los conjuntos de elementos con mayor apoyo deben tener mayor confianza ( )
Respuesta: ×
3. Preguntas de cálculo
Algoritmo previo:
(1) Los datos conocidos de la cesta de la compra se muestran en la tabla de abajo a la derecha, complete las siguientes tareas
Respuesta: (Después de verificar, se descubrió que el conjunto de 2 elementos no tenía {pan, huevos}: 1, {cerveza, huevos}: 1, {pañales, huevos}: 1, pero tiene poco efecto en el resultado final). (
2 )
apoyo ({pan}->{pañal}) = 3/5
confianza ({pan}->{pañal}) = 3/4 <80%
por lo que no es una regla de asociación fuerte.
4. Escenarios de aplicación de análisis de asociación
(1) Extraer los datos de ventas de los centros comerciales , descubrir la relación entre los productos y ayudar a los centros comerciales a realizar promociones y colocar en los estantes.
(2) Minería de datos de diagnóstico médico , puede encontrar la relación entre ciertos síntomas y una determinada enfermedad, y diagnosticar enfermedades para los médicos
(3) Minería de páginas web : revelar enlaces interesantes entre diferentes páginas web visitadas.
5. El concepto de análisis de asociación
(1) Conjunto de elementos: un conjunto de elementos que contiene k elementos de datos se denomina conjunto de elementos k.
(2) Conjuntos de elementos frecuentes: si el soporte de un conjunto de elementos es mayor o igual a un determinado umbral , se denomina conjunto de elementos frecuentes.
(3) Recuento de soporte: el número de ocurrencias de un conjunto de elementos, es decir, el número de transacciones que incluyen el conjunto de elementos en el conjunto completo de datos de transacciones.
(4) Reglas de asociación: Implicaciones de la forma X->Y
(5) Soporte:
(6) Confianza:
(7) Reglas de asociación fuertes: Reglas de asociación mayores que el umbral mínimo de soporte y el umbral mínimo de confianza.
6, aritmética a priori
Propiedad a priori: cualquier subconjunto de un conjunto de elementos frecuente también debe ser un conjunto de elementos frecuente.
Corolario: si un conjunto de elementos es infrecuente, su superconjunto también lo es.
El algoritmo incluye dos pasos de conexión y poda .
7. Análisis de correlación
(1) Ascensor (ascensor). Su valor es mayor a 1, indicando que existe correlación positiva entre ambos; menor a 1, correlación negativa; igual a 1, no existe correlación.
(2) Factor de interés
(3) Coeficiente de correlación
(4) Medida del coseno
8. Cálculo del número de conjuntos de elementos
1. Dados k elementos, hay 2k-1 conjuntos de elementos en total.
2. Hay reglas de asociación de candidatos 2k-2 para conjuntos de elementos k frecuentes (excluyendo L->ᴓ y ᴓ->L)
Capítulo 6 Minería atípica
1. Verdadero o Falso
(1) Si un objeto no pertenece fuertemente a ningún grupo, entonces el objeto es un valor atípico basado en el agrupamiento ( ).
Respuesta: √
2. Preguntas de cálculo
(1) Dado un conjunto de datos bidimensionales, las coordenadas de los puntos son las siguientes, tome k=3, use el algoritmo de k-medias para encontrar el factor atípico OF1 de los puntos p14 y p16, qué punto es más probable que sea un punto anormal?
respuesta:
3. Cuestionario
(1) ¿Qué es un valor atípico? ¿El valor atípico detectado por el algoritmo de minería de valores atípicos corresponde necesariamente al comportamiento anormal real? En caso afirmativo, explique; en caso negativo, proporcione un contraejemplo.
Respuesta: Los valores atípicos son datos que se desvían de la mayoría de los datos del conjunto de datos , lo que hace que las personas sospechen que la desviación de estos datos no se genera por factores aleatorios , sino por diferentes mecanismos .
En general, los valores atípicos pueden corresponder a un comportamiento anormal real. Dado que el mecanismo de generación de valores atípicos es incierto, si el "valor atípico" detectado por el algoritmo de minería de valores atípicos corresponde al comportamiento anormal real no debe ser explicado y explicado por el algoritmo de minería de valores atípicos, y solo puede ser explicado por los expertos del dominio para explicar .
Los valores atípicos pueden ser causados por errores de medición, de entrada o de operación del sistema, o pueden ser determinados por las características inherentes de los datos, o causados por el comportamiento anormal del objeto.
Por ejemplo: una edad de -999 puede deberse a que el programa procesa datos predeterminados y establece valores predeterminados. El salario de los altos directivos de una empresa es significativamente más alto que el de los empleados ordinarios, lo que puede convertirse en datos atípicos, pero son datos razonables. El costo de un teléfono residencial aumentó de menos de 200 yuanes por mes a miles de yuanes, lo que puede deberse a llamadas robadas u otras razones especiales. Aparentemente, los cargos altos en una tarjeta de crédito pueden deberse al robo de la tarjeta.
4. Las causas de los valores atípicos
(1) Causado por medición, error de entrada o error de operación del sistema
(2) Determinado por las características inherentes de los datos
(3) Causado por el comportamiento anormal del objeto
5. Tres cuestiones a tratar en la minería de valores atípicos
6. Métodos estadísticos
Los datos que no concuerdan con el modelo se identifican como valores atípicos. Un objeto se considera atípico si su modelo de distribución de probabilidad con respecto a los datos tiene un valor de probabilidad bajo.
Los modelos de distribución de probabilidad se crean a partir de datos mediante la estimación de parámetros de distribución especificados por el usuario.
Diagrama de control de calidad
7. Métodos basados en la distancia
(1) Factor de valor atípico del punto x: cuanto mayor es OF1, más atípico es el punto x.
Ejemplo de libro de texto: Calcular OF1
8. Método basado en la densidad relativa
(1) Densidad del vecindario local:
(2) Densidad relativa: los valores atípicos se detectan comparando la densidad de un objeto con la densidad promedio de los objetos en su vecindad.
Ejemplo de libro de texto: Calcular OF3
9. Métodos basados en agrupamiento
Métodos de detección de valores atípicos de datos dinámicos y estáticos:
10. Evaluación de métodos de minería atípica
Matriz de mezcla:
Dos indicadores de la precisión del método de extracción de valores atípicos:
(1) tasa de detección
(2) tasa de falsas alarmas
Eso es todo al respecto.
FIN