Notas de "Aprendizaje automático con gráficos"

Del libro "Aprendizaje profundo ilustrado", podemos aprender sobre las redes neuronales supervisadas y no supervisadas, pero las redes neuronales profundas son supervisadas o no supervisadas sobre la base del reconocimiento.
Para el habla o estos,
si los datos se entrenan y luego la memoria en el reconocimiento no supervisado posterior no será demasiado grande
Regresión
#Varios algoritmos de aprendizaje automático se centran principalmente en cómo hacer que las funciones específicas se aproximen al conjunto de datos.
Función de base:
La función de base multidimensional adopta el método de multiplicar o sumar múltiples funciones de base unidimensionales.
2. Función de núcleo
La función de núcleo gaussiana generalmente se usa para reducir la dimensionalidad y evitar el desastre de la dimensionalidad al aproximar el entorno.
La red neuronal profunda es un modelo de capas.Después de la comparación, se concluye que el modelo de capas es más flexible que el modelo kernel.
#Utilice el algoritmo de gradiente estocástico para aprender el modelo de núcleo gaussiano mediante el método de mínimos cuadrados.
El método de mínimos cuadrados simple tiene la debilidad de sobreajustarse al proceso de aprendizaje con ruido , por lo que se lleva a cabo el método de mínimos cuadrados con restricciones. Para controlar el número de sus características.
¿Cómo limita el rango del parámetro θ aquí? Selecciona diferentes anchos de banda h y parámetros de regularización λ en diferentes escenarios a través de la matriz de proyección ortogonal P y el parámetro de regularización λ.
Proceso de selección de modelos

Evalúe el modelo:
&Método de validación cruzada: porque en el entrenamiento real, los resultados del entrenamiento suelen ser buenos para el conjunto de entrenamiento (las condiciones iniciales son sensibles), pero el ajuste para los datos fuera del conjunto de entrenamiento suele ser menos satisfactorio. Por lo tanto, generalmente no usamos todos los conjuntos de datos para el entrenamiento, sino que separamos una parte (esta parte no participa en el entrenamiento) para probar los parámetros generados por el conjunto de entrenamiento y juzgar de manera relativamente objetiva el impacto de estos parámetros en los datos fuera del conjunto de entrenamiento grado de cumplimiento. Esta idea se llama validación cruzada.

Para atrapar: Robustez
Para muestras con
valores atípicos Desviación mínima del valor absoluto
Mínima pérdida de Huber
Aprendizaje robusto en aprendizaje disperso
El capítulo 6 es para evaluar diferencias

#Clasificador
Con los valores binarios de -1 y +1,
comencemos con la segunda categoría más simple

#0/1 loss No entiendo muy bien el método de los mínimos cuadrados Capítulo 7
Comparación de varias pérdidas: 0/1 loss l2 loss ¿Qué es la pérdida proxy?

Por ejemplo, reconocer varias letras. El primer tipo de uno a muchos puede tener demasiadas muestras en la imagen a continuación.
inserte la descripción de la imagen aquí
El segundo tipo de uno a uno puede no ser preciso.

Clasificador de máquinas vectoriales - para el reconocimiento de patrones
#Basado en el principio de intervalo máximo ¿Qué significa esto?

Si es un clasificador separable linealmente, utilice un clasificador SVM de margen duro.
Si el clasificador no es separable linealmente, utilice un clasificador SVM de margen suave. Se permiten algunos errores.

El algoritmo SVM es un mecanismo de aprendizaje propuesto por Vapnik para mejorar la debilidad teórica del método tradicional de aprendizaje de redes neuronales. La red de máquinas de vectores de soporte se propuso por primera vez a partir del problema de la superficie de clasificación óptima .
El algoritmo transforma el problema real en un espacio de características de alta dimensión a través de la transformación no lineal, y construye una función discriminante lineal en el espacio de alta dimensión para realizar la función discriminante no lineal en el espacio original. Esta propiedad especial puede garantizar que la máquina tenga una mejor generalización Al mismo tiempo, resuelve hábilmente el problema del desastre de la dimensionalidad, haciendo que la complejidad de su algoritmo sea independiente de la dimensión de la muestra.

Cuando la pérdida de bisagra es negativa, la pérdida aumenta linealmente y la
función de pérdida con el límite superior - la función de pérdida de rampa: mejora la robustez a valores anormales

Clasificación de conjunto
Clasificador débil
inserte la descripción de la imagen aquí
Múltiples alumnos débiles pueden convertirse en un alumno fuerte al promediar. Un clasificador débil con una tasa de error de clasificación em más pequeña tiene un peso αm mayor. Por lo tanto, un clasificador débil con una tasa de error de clasificación menor tiene un papel más importante en el clasificador final.
Este efecto se puede lograr:
inserte la descripción de la imagen aquí

Método de clasificación de probabilidad: la clasificación de probabilidad tiene un mejor efecto en la identificación de múltiples categorías. En comparación con lo anterior, ¿se puede usar lo anterior en múltiples categorías o usar uno a uno en múltiples categorías? Aprendizaje del modelo de regresión logística, esto se juzga
con el método de probabilidad posterior y el de máxima verosimilitud.
Cuando hay muchas muestras de entrenamiento, se usa el método de clasificación de probabilidad de mínimos cuadrados; cuando las muestras de entrenamiento son relativamente pequeñas, se usa el método de regresión logística.

Lenguaje de reconocimiento de texto Procesamiento de textos

Clasificación de datos de secuencia

Supongo que te gusta

Origin blog.csdn.net/Carol_learning/article/details/98871778
Recomendado
Clasificación