[Notas de aprendizaje automático] Resumen de puntos clave del conocimiento del aprendizaje automático

Resumen de conocimiento de aprendizaje automático

 

1. ¿Cuáles son las clasificaciones comunes y los algoritmos de uso común para el aprendizaje automático?

El aprendizaje automático se divide en cuatro tipos: aprendizaje supervisado, aprendizaje no supervisado, aprendizaje semi-supervisado y aprendizaje de refuerzo.

(1) Aprendizaje supervisado: se refiere a que cada muestra de datos de entrenamiento que ingresa al algoritmo tiene un valor esperado correspondiente, que es el valor objetivo. El proceso de realizar aprendizaje automático es en realidad el proceso de mapear valores de características y colas objetivo; El método de entrenamiento de las características de algunos datos y el resultado final es el método de aprendizaje supervisado; la fuente de datos de entrenamiento del algoritmo de aprendizaje supervisado debe estar compuesta por el valor de la característica y la cola objetivo.

 

Debido a que el aprendizaje supervisado depende del marcado de cada muestra, puede obtener el valor objetivo exacto al que se asigna cada secuencia de características, por lo que a menudo se usa en escenarios de regresión y clasificación. Los algoritmos comunes de aprendizaje supervisado se muestran en la siguiente tabla:

 

Algoritmo

Incluir específicamente

Algoritmo de clasificación

 

K-Nearest Neighbour (KNN), algoritmo naive bayesiano, árbol de decisión, bosque aleatorio, GBDT (GradientBoostingDecisionTree) y máquina de vectores de soporte ( Soporte Vector Machine, SVM), etc.

Algoritmo de regresión

 

Regresión regresiva, regresión lineal, etc.

 

Un problema con el aprendizaje supervisado es que el costo de obtener el valor objetivo es relativamente alto.

 

(2) Aprendizaje no supervisado (aprendizaje no supervisado): se refiere a un algoritmo de aprendizaje automático que no se basa en los datos de marcado para las muestras de entrenamiento, se utiliza principalmente para resolver algunos escenarios de agrupación. Los algoritmos comunes de aprendizaje no supervisado se muestran en la siguiente tabla:

 

Algoritmo

Incluir específicamente

Algoritmo de agrupamiento

 

K-medias (algoritmo de agrupación k-significa, algoritmo de agrupación k-significa), DBSCAN (algoritmo de agrupación, agrupación espacial de aplicaciones basada en densidad), etc.

 

Algoritmo de recomendación

 

Filtrado colaborativo (Filtrado colaborativo), etc.

 

 

En comparación con el aprendizaje supervisado, una de las principales ventajas del aprendizaje sin supervisión es que no depende de los datos de marcado.

 

(3) Aprendizaje semi-supervisado (Aprendizaje semi-supervisado): el algoritmo de aprendizaje automático se usa marcando partes de la muestra, muchos algoritmos de aprendizaje semi-supervisado son variantes del algoritmo de aprendizaje supervisado.

 

(4) Aprendizaje por refuerzo (Aprendizaje por refuerzo): es un tipo más complejo de aprendizaje automático, enfatizando que el sistema interactúa continuamente con el mundo exterior, obtiene retroalimentación del mundo exterior y luego determina su propio comportamiento.

 

En resumen, el aprendizaje supervisado resuelve principalmente los escenarios de clasificación y regresión, el aprendizaje no supervisado resuelve principalmente los escenarios de agrupación, el aprendizaje semi-supervisado resuelve algunos escenarios de clasificación en los que es difícil obtener datos de marcado y el aprendizaje de refuerzo está dirigido principalmente a las necesidades continuas del proceso. Escena de razonamiento. La clasificación específica se muestra en la siguiente tabla:

 

Algoritmo

Incluir específicamente

Aprendizaje supervisado

Regresión logística, K vecinos más cercanos, Bayes ingenuos, bosque aleatorio, máquina de vectores de soporte

Aprendizaje no supervisado

K-means, DBSCAN, filtrado colaborativo, LDA

Aprendizaje semi-supervisado

Propagación de etiquetas

Aprendizaje de refuerzo

Markov oculto

 

2. La diferencia entre aprendizaje supervisado y aprendizaje no supervisado

Aprendizaje supervisado: capacitación a través de muestras de capacitación existentes (es decir, datos conocidos y sus resultados correspondientes) para obtener un modelo óptimo, y luego usar este modelo para asignar todas las muestras de datos nuevas a los resultados de resultados correspondientes , Juicio simple sobre los resultados de salida para lograr el propósito de clasificación, entonces este modelo óptimo también tiene la capacidad de clasificar datos desconocidos.

Aprendizaje no supervisado: no tenemos muestras de datos de capacitación por adelantado y necesitamos modelar directamente los datos.

Aprendizaje supervisado: Aprenda las muestras de entrenamiento etiquetadas para clasificar y predecir los datos fuera del conjunto de muestras de entrenamiento tanto como sea posible. (LR, SVM, BP, RF, GBDT)

 

3. Las causas y soluciones del sobreajuste

Si mejora ciegamente la capacidad de predicción de los datos de entrenamiento, la complejidad del modelo seleccionado a menudo será muy alta. Este fenómeno se denomina sobreajuste. Lo que se muestra es que el error durante el entrenamiento del modelo es pequeño, pero el error es grande durante la prueba.

Causas:

(1) Razones para sobreajustar

  •     Problemas con los datos de muestra.
  •     El tamaño de la muestra es demasiado pequeño.
  •     El método de muestreo es incorrecto y los datos de muestra extraídos no pueden ser lo suficientemente efectivos como para representar la lógica empresarial o los escenarios empresariales. Por ejemplo, la muestra se ajusta a la distribución normal, pero se muestrea de acuerdo con la distribución promedio, o los datos de la muestra no pueden representar la distribución de los datos generales
  •     Los datos de ruido en la muestra son demasiado molestos.

(2) Problema del modelo

  •     Alta complejidad del modelo y demasiados parámetros.
  •     Modelo de árbol de decisión sin poda
  •     Hay suficientes iteraciones de aprendizaje de peso (sobreentrenamiento) para ajustar el ruido en los datos de entrenamiento y las características no representativas en los ejemplos de entrenamiento.

Solución:

(1) Datos de muestra:

  •     Aumente el número de muestras, reduzca las dimensiones de las muestras y agregue datos de verificación
  •     El método de muestreo debe ser coherente con el escenario empresarial
  •     Limpieza de datos de ruido

(2) Problemas de modelo o entrenamiento

  •     Para controlar la complejidad del modelo, prefiera elegir un modelo simple o utilice la tecnología de fusión de modelos.
  •     Utilice los conocimientos previos para agregar elementos regulares. Es más probable que la regularización L1 produzca soluciones dispersas, y la regularización L2 tiende a hacer que el parámetro w tienda a 0.
  •     Validación cruzada
  •     No se sobreentienda, deje de iterar antes de converger al optimizar.
  •     Modelo de árbol de decisión sin poda
  •     Pérdida de peso

 

4. La diferencia y ventajas y desventajas del clasificador lineal y clasificador no lineal

Si el modelo es una función lineal de parámetros y hay una superficie de clasificación lineal, entonces es un clasificador lineal, de lo contrario no lo es.

Los clasificadores lineales comunes son: LR, clasificación bayesiana, perceptrón de una capa, regresión lineal

Clasificadores no lineales comunes: árbol de decisión, RF, GBDT, SVM de perceptrón multicapa (ambos ver núcleo lineal o núcleo gaussiano)

El clasificador lineal es rápido y fácil de programar, pero el efecto de ajuste puede no ser muy bueno.

La programación del clasificador no lineal es complicada, pero la capacidad de ajuste del efecto es fuerte.

 

5. La diferencia entre LR (Regresión logística) y Liner SVM

SVM lineal y LR son clasificadores lineales

El SVM lineal no depende directamente de la distribución de datos, y el plano de clasificación no se ve afectado por un tipo de punto; LR se ve afectado por todos los puntos de datos. Si los datos son de diferentes tipos, el desequilibrio fuerte generalmente necesita hacer un balance en los datos primero.

El SVM lineal depende de la medición de distancia de la expresión de datos, por lo que los datos deben normalizarse (normalizarse); LR no se ve afectado por él. El SVM lineal depende del coeficiente de penalización, y la validación debe hacerse en el experimento

n El rendimiento de Linear SVM y LR se verá afectado por valores atípicos. En términos de sensibilidad, es difícil llegar a una conclusión clara sobre quién es mejor.

 

6. Algoritmos de clasificación comunes

SVM, red neuronal, árbol de decisión, bosque aleatorio, regresión logística, KNN, Bayes

 

7. Comparación de SVM, LR y árbol de decisión

Complejidad del modelo: SVM admite funciones del núcleo y puede manejar problemas lineales y no lineales; el modelo LR es simple y tiene una velocidad de entrenamiento rápida, adecuada para procesar problemas lineales; los árboles de decisión son fáciles de sobreajustar y necesitan poda.

Función de pérdida: pérdida de bisagra SVM; regularización LR L2; pérdida exponencial adaboost.

Sensibilidad de los datos: la tolerancia agregada SVM no es sensible a valores atípicos, solo se preocupa por los vectores de soporte y primero debe normalizarse; LR es sensible a los puntos remotos

Volumen de datos: use LR para grandes volúmenes de datos y use kernel no lineal SVM para pequeños volúmenes de datos y pocas características.

 

8. Medición de distancia en algoritmos de agrupamiento

La medición de distancia en el algoritmo de agrupamiento generalmente usa la distancia de Minkowski, que corresponde a diferentes distancias cuando p toma diferentes valores, como la distancia de Manhattan cuando p = 1, y la distancia euclidiana cuando p = 2, p = En el caso de inf, se convierte en la distancia de Chebyshev, así como la distancia de jaccard, la distancia de potencia (forma más general de Minkowski), la similitud del coseno, la distancia ponderada y la distancia de Mahalanobis (ponderación similar) como una métrica de distancia debe satisfacerse Sin negatividad, identidad, simetría y transmisión directa, Minkovsky satisface esa propiedad cuando p> = 1. Para algunos atributos discretos como {avión, tren, barco}, no puede estar directamente en el valor del atributo Calcule la distancia anterior, estos se llaman atributos no ordenados, puede usar VDM (ValueDiffrence Metrix), la distancia VDM entre dos valores discretos a, b en el atributo u se define como

Indica el número de muestras de a en el atributo u en el i-ésimo grupo. Cuando la importancia de los diferentes atributos en el espacio muestral puede ser diferente, se puede usar la distancia ponderada. Generalmente, si los atributos de todos los atributos se consideran iguales, las características deben normalizarse. En términos generales, la distancia requiere una medida de similitud. Cuanto mayor es la distancia, menor es la similitud. La distancia utilizada para la medida de similitud no necesariamente tiene que satisfacer todas las propiedades de la medida de distancia, como la directividad. Por ejemplo, personas y caballos, personas y caballos están más cerca, y luego las personas y los caballos pueden estar muy lejos.

 

9. Explicar la fórmula de Bayes y el método ingenuo de solución de clasificación de Bayes

Fórmula bayesiana

El clasificador bayesiano óptimo que minimiza los errores de clasificación es equivalente a maximizar la probabilidad posterior

La principal dificultad para estimar la probabilidad posterior basada en la fórmula bayesiana es que la probabilidad condicional es la probabilidad conjunta de todos los atributos, lo cual es difícil de estimar directamente a partir de una muestra de entrenamiento limitada. El clasificador ingenuo de Bayes adopta el supuesto de independencia condicional de atributo. Para las categorías conocidas, se supone que todos los atributos son independientes entre sí. De esta manera, la clasificación de Naive Bayes se define como: si hay suficientes muestras independientes e idénticamente distribuidas, se puede estimar directamente de acuerdo con el número de muestras en cada clase.

 

En el caso discreto, la probabilidad previa se puede estimar utilizando el tamaño de la muestra o en el caso discreto, la probabilidad máxima se puede estimar de acuerdo con la función de densidad de probabilidad supuesta. Naive Bayes se puede utilizar para variables continuas y discretas. Si estima directamente en función del número de ocurrencias, habrá un caso en el que el artículo es 0 y el producto es 0, por lo que generalmente se utilizan algunos métodos suaves, como la corrección de Laplace.

 

10. ¿Por qué algunos modelos de aprendizaje automático necesitan normalizar los datos?

http://blog.csdn.net/xbmatrix/article/details/56695825

La normalización es limitar los datos que necesita procesar a un cierto rango después del procesamiento (a través de un algoritmo).

1) Después de la normalización, la velocidad de descenso del gradiente para encontrar la solución óptima se acelera. El contorno se suaviza y puede converger más rápido cuando se resuelve el descenso del gradiente. Si no está normalizado, el proceso de descenso del gradiente es fácil, incluso es difícil converger

2) Cambiar las expresiones dimensionales a expresiones no dimensionales puede mejorar la precisión. Algunos clasificadores necesitan calcular la distancia entre muestras (como la distancia euclidiana), como KNN. Si el rango del rango de valores de una característica es muy grande, el cálculo de la distancia depende principalmente de esta característica, lo cual es contrario a la situación real (por ejemplo, la situación real es que la característica con un pequeño rango de valores es más importante)

3) Los modelos anteriores de regresión logística y otros modelos suponen que los datos siguen una distribución normal.

Los tipos de normalización son: normalización lineal, normalización de desviación estándar, normalización no lineal

 

11. ¿La diferencia entre normalización y estandarización?

normalizado :

1) Convierta los datos en decimales entre (0.1)

2) Convierta la expresión dimensional en expresión adimensional

Los más comunes incluyen conversión lineal, conversión de función logarítmica, conversión inversa de función cotangente, etc.

Estandarización:

La normalización de los datos es escalar los datos para que caigan en un pequeño intervalo específico. A menudo se usa en el procesamiento de ciertos indicadores de comparación y evaluación para eliminar el límite unitario de los datos y convertirlo en un valor puro adimensional, de modo que los indicadores de diferentes unidades o magnitudes se puedan comparar y ponderar.

1) Normalización mínima-máxima (transformación lineal)

y = ((x-MinValue) / (MaxValue-MinValue)) (new_MaxValue-new_MinValue) + new_minValue

2) normalización de puntaje z (o normalización de media cero)

y = (valor promedio de xX) / desviación estándar de X

3) Normalización de escala decimal: normalización moviendo la posición decimal de X

y = x / 10 a la potencia j (donde j hace que Max (| y |) <1 sea el entero más pequeño

4) Modo logístico:

Datos nuevos = 1 / (1 + e ^ (-datos originales))

5) Modo de cuantificación difusa

Datos nuevos = 1/2 + 1 / 2sin [Pi 3.1415 / (valor máximo-valor mínimo)

 

12. Procesamiento de valores faltantes de vectores de características

1. Si faltan muchos valores, descarte la función directamente, de lo contrario, puede generar un ruido mayor y afectar negativamente el resultado.

2. Hay pocos valores faltantes. Los valores faltantes restantes de las características están dentro del 10%.

1) Tome NaN directamente como una característica, suponiendo que esté representado por 0;

2) Rellenar con la media;

3) Use bosque aleatorio y otros algoritmos para predecir el llenado

 

13. Detener la condición del árbol de decisión

 Deténgase hasta que cada nodo de hoja tenga solo un tipo de registro (de esta manera es fácil de sobreajustar).

 En el otro caso, se detiene cuando el árbol de registro del nodo hoja es menor que un cierto umbral o la ganancia de información del nodo es menor que un cierto umbral

 

14. ¿Cuál es la diferencia entre GBDT y bosque aleatorio?

El bosque aleatorio utiliza la idea de embolsado. El embolsado también se denomina agregación bootstrap. Se obtienen muestras múltiples mediante muestreo con reemplazo en el conjunto de muestras de entrenamiento. Se capacita a un alumno base en función de cada conjunto de muestra, y luego el alumno base Combinar.

Basado en el empaque del árbol de decisión, el bosque aleatorio introduce la selección de atributos aleatorios en el proceso de capacitación del árbol de decisión. El árbol de decisión tradicional selecciona el atributo óptimo del conjunto de atributos del nodo actual al seleccionar el atributo de división, mientras que el bosque aleatorio selecciona aleatoriamente un subconjunto de k atributos para el nodo, y luego selecciona el atributo más, k como parámetro Controla el grado de aleatoriedad introducido.

Además, el entrenamiento GBDT se basa en la idea de Boosting, y los pesos de muestra se actualizan de acuerdo con los errores en cada iteración, por lo que es un método de serialización de generación en serie, y el bosque aleatorio es la idea de embolsado, por lo que es un método de paralelización.

 

15. El aprendizaje supervisado generalmente usa dos tipos de variables objetivo

Nominal y numérico

Tipo nominal: el resultado de la variable objetivo nominal solo se toma en un conjunto objetivo limitado, como verdadero y falso (la variable objetivo nominal se utiliza principalmente para la clasificación)

Numérico: la variable objetivo numérica se puede tomar de un conjunto infinito de valores, como 0.100, 42.001, etc. (La variable objetivo numérica se utiliza principalmente para el análisis de regresión)

 

16. ¿Cómo determinar el valor en K-mean?

Dado un índice de conglomerado adecuado, como el radio o diámetro promedio, siempre y cuando supongamos que el número de conglomerados es igual o mayor que el número de conglomerados reales, el índice aumentará lentamente, y una vez que intente obtener menos que el número verdadero Cuando el clúster está agrupado, el índice aumentará bruscamente. El diámetro de un grupo se refiere a la distancia máxima entre dos puntos dentro del grupo. El radio de un grupo se refiere a la distancia máxima desde todos los puntos en el grupo hasta el centro del grupo.

 

17. Uso de la probabilidad bayesiana para ilustrar los principios del abandono

El abandono es una técnica de selección de modelo diseñada para evitar el sobreajuste durante el entrenamiento.El enfoque básico del abandono es eliminar aleatoriamente las dimensiones de los datos de entrada X dada una probabilidad p. Por lo tanto, es instructivo discutir cómo afecta la función de pérdida potencial y el problema de optimización.

 

18. ¿Qué es la colinealidad y cómo se relaciona con la adaptación?

Colinealidad: en la regresión lineal multivariada, la estimación de regresión es inexacta debido a la alta correlación entre las variables.

La colinealidad causará redundancia y conducirá a un sobreajuste.

Solución: excluir la relevancia de las variables / agregar pesos regulares

 

(Actualizando ...)

Publicado 646 artículos originales · elogiado 198 · 690,000 visitas

Supongo que te gusta

Origin blog.csdn.net/seagal890/article/details/105352987
Recomendado
Clasificación