Matemáticas en el aprendizaje automático: el desafío de la optimización del aprendizaje profundo: correspondencia débil entre estructuras locales y globales

Categorías: Catálogo general de matemáticas en aprendizaje automático
Artículos relacionados:
· Mal
acondicionado · Mínimos locales
· Mesetas, puntos de silla y otras regiones planas
· Gradientes que desaparecen y explotan
· Gradientes inexactos
· Correspondencia débil entre estructuras locales y globales


Muchos de los temas que hemos discutido hasta ahora han sido sobre las propiedades de la función de pérdida en un solo punto: si J ( θ ) J(\theta)J ( θ ) es el punto actualθ \thetaLa condición mal condicionada de θ, o θ \thetaθ está en el acantilado, oθ \thetaθ es un punto de silla donde la dirección descendente no es obvia, por lo que será difícil actualizar el paso actual.

Si la dirección mejora localmente, pero no apunta a una región mucho menos costosa, es posible que superemos todas las dificultades anteriores en un solo punto y aun así tengamos un desempeño deficiente. Goodfellow y otros argumentan que el tiempo de ejecución de la mayor parte del entrenamiento depende de la longitud de la trayectoria hacia la solución. Como se muestra en la figura a continuación, la trayectoria de aprendizaje pasará mucho tiempo explorando un amplio arco alrededor de la estructura en forma de montaña.
Problemas causados ​​por los óptimos locales
La dificultad de la mayoría de las investigaciones de optimización se centra en si el entrenamiento encuentra un mínimo global, un mínimo local o un punto de silla, pero en la práctica las redes neuronales no alcanzan ninguno de estos puntos críticos. La siguiente figura muestra que las redes neuronales generalmente no llegan a regiones con gradientes pequeños. Incluso, estos puntos críticos no necesariamente existen. Por ejemplo, la función de pérdida − log ⁡ p ( y ∣ x ; θ ) -\log p(y|x;\theta)iniciar sesiónpags ( y x ;θ ) pueden no tener un punto mínimo global, pero convergen asintóticamente a un cierto valor cuando el modelo se estabiliza gradualmente con el entrenamiento. parayyDistribución y y Softmaxp ( y ∣ x ) p(y|x)Para un clasificador de p ( y x ) , si el modelo puede clasificar correctamente cada muestra en el conjunto de entrenamiento, la probabilidad logarítmica negativa puede aproximarse infinitamente pero no igual a cero. Asimismo, el modelo de valor realp ( y ∣ x ) = N ( y ; f ( θ , β − 1 ) ) p(y|x)=N(y;f(\theta,\beta^{-1} ) )pags ( y x )=N(y;f ( θ ,B1 ))la log-verosimilitud negativa tiende a infinito negativo—sif ( θ ) f(\theta)f ( θ ) puede predecir correctamente el objetivoyyy , el algoritmo de aprendizaje aumentaβ \betaβ . La figura anterior muestra un ejemplo fallido de no poder encontrar un buen valor de función de costo a partir de la optimización local incluso sin mínimos locales y puntos de silla.
El descenso de gradiente generalmente no alcanza ningún tipo de punto de inflexión
Se necesita investigación futura para explorar más a fondo las consecuencias que afectan la duración de la trayectoria de aprendizaje y caracterizar mejor el proceso de formación. Muchos métodos de investigación existentes apuntan a encontrar buenos puntos iniciales al resolver problemas con una estructura global difícil, en lugar de desarrollar algoritmos para actualizaciones de alcance no local.

El descenso de gradiente y, básicamente, todos los algoritmos de aprendizaje que pueden entrenar redes neuronales de manera eficiente se basan en pequeñas actualizaciones locales. Las subsecciones anteriores se centraron en por qué es difícil calcular la dirección correcta de estas actualizaciones de alcance local. Es posible que podamos calcular algunas propiedades de la función objetivo, como el gradiente sesgado aproximado o la varianza de la estimación en la dirección correcta. En estos casos, es difícil determinar si la descendencia local puede definir un camino lo suficientemente corto hacia una solución válida, pero no podemos realmente seguir el camino de la descendencia local. La función objetivo puede tener problemas como gradientes mal condicionados o discontinuos, de modo que el intervalo sobre el cual el gradiente proporciona una buena aproximación a la función objetivo es muy pequeño. En estos casos, el tamaño del paso es ϵ \epsilonUna caída local en ϵ puede definir un cortocircuito razonable para la solución, pero solo podemos calcularlo con un tamaño de paso deδ < < ϵ \delta<<\epsilonD<<La dirección de descenso local de ϵ . En estos casos, un descenso local podría definir un camino hacia la solución, pero el camino implica muchas actualizaciones, por lo que seguirlo es computacionalmente costoso. A veces, como cuando la función objetivo tiene una región ancha y plana, o cuando estamos tratando de encontrar puntos críticos exactos (generalmente este último caso solo ocurre con métodos que resuelven explícitamente los puntos críticos, como el método de Newton), la información local no no nos proporciona ninguna orientación. En estos casos, la descendencia local es completamente incapaz de definir un camino hacia la solución. En otros casos, el movimiento local puede ser demasiado codicioso, moviéndose en una dirección descendente que está en desacuerdo con todas las soluciones factibles, o resolviendo el problema con un enfoque amplio.

Independientemente de cuál sea el problema más importante, si hay una región en la que seguimos la ascendencia local razonablemente directamente a alguna solución, y podemos iniciar el aprendizaje en esa buena región, entonces estos problemas se pueden evitar. El punto de vista final es que se recomienda estudiar cómo elegir un mejor punto de inicialización en el algoritmo de optimización tradicional, de modo que sea más factible lograr el objetivo.

Algunos resultados teóricos sugieren que cualquier algoritmo de optimización que diseñemos para redes neuronales tiene limitaciones de rendimiento. Por lo general, estos resultados no afectan la aplicación de las redes neuronales en la práctica.

Algunos resultados teóricos se aplican solo al caso en el que las unidades de la red neuronal generan valores discretos. Sin embargo, la mayoría de las unidades de redes neuronales emiten valores continuos uniformes, lo que hace factible la optimización de la solución de búsqueda local. Algunos resultados teóricos sugieren que hay una cierta clase de problemas que no tienen solución, pero es difícil decir si un problema en particular pertenece a esa clase. Otros resultados muestran que encontrar una solución factible para una red de tamaño dado es difícil, pero en situaciones prácticas podemos encontrar fácilmente una solución aceptable configurando más parámetros y usando una red más grande. Además, en el entrenamiento de redes neuronales, generalmente no nos enfocamos en los mínimos exactos de una función, sino solo en reducir su valor lo suficiente como para obtener un buen error de generalización. Es muy difícil analizar teóricamente si un algoritmo de optimización puede lograr este objetivo. Por lo tanto, investigar límites superiores más realistas sobre el rendimiento de los algoritmos de optimización sigue siendo un objetivo importante en el mundo académico.

Supongo que te gusta

Origin blog.csdn.net/hy592070616/article/details/123285338
Recomendado
Clasificación