Una nueva idea del algoritmo de descenso de gradiente

Benjamin Grimmer, profesor asistente de matemáticas aplicadas y estadística en la Universidad Johns Hopkins, ofrece una forma completamente nueva de entender el algoritmo de descenso de gradiente.

En el mundo del aprendizaje automático, los problemas de optimización son muy importantes y pueden hacer del mundo un lugar mejor. Los problemas de optimización buscan encontrar la mejor manera de lograr algo, como el GPS de un teléfono móvil que calcula la ruta más corta a un destino, o un sitio web de viajes que busca el vuelo más barato que coincida con un itinerario. Al mismo tiempo, las aplicaciones de aprendizaje automático aprenden analizando patrones en los datos e intentan brindar la respuesta más precisa y humana a cualquier problema de optimización dado.

Para problemas de optimización simples, encontrar la solución óptima es solo una cuestión de aritmética. En 1847, el matemático francés Augustin-Louis Cauchy estudió un ejemplo bastante complejo: los cálculos astronómicos. En ese momento, fue pionero en un método de optimización común, ahora conocido como descenso de gradiente, que es uno de los métodos de primer orden más clásicos y simples en los métodos de optimización.

Hoy en día, gracias a su baja complejidad y simplicidad, la mayoría de los programas de aprendizaje automático dependen en gran medida del descenso de gradiente, que también se utiliza en otros campos para analizar datos y resolver problemas de ingeniería. Los matemáticos han estado perfeccionando el método de descenso de gradiente durante más de cien años. Sin embargo, un artículo del mes pasado sugirió que una suposición fundamental sobre los métodos de descenso de gradientes puede estar equivocada.

El artículo es "Descenso de gradiente probablemente más rápido a través de pasos largos", y el único autor es Benjamin Grimmer, profesor asistente de matemáticas aplicadas y estadística en la Universidad Johns Hopkins. Se asombró de lo que encontró, como una intuición destrozada.

Sus resultados contrarios a la intuición mostraron que el descenso de gradiente podría ser casi 3 veces más rápido si se rompieran las reglas establecidas desde hace mucho tiempo para encontrar la mejor respuesta a un problema dado. Para ser más específico: argumenta que el algoritmo de descenso de gradiente puede funcionar más rápido al incluir tamaños de paso inesperadamente grandes, al contrario de lo que los investigadores han creído durante mucho tiempo.

Dirección en papel: https://arxiv.org/pdf/2307.06324.pdf

Si bien este avance teórico puede no ser aplicable al aprendizaje automático para resolver problemas más difíciles, podría incitar a los investigadores a repensar su comprensión del descenso de gradiente.

Shuvomoy Das Gupta, investigador de optimización del MIT, dijo: "Resulta que no entendemos completamente la teoría detrás del descenso de gradiente. Ahora, este estudio nos acerca a comprender el papel del descenso de gradiente".

Este documento establece tasas de convergencia posiblemente más rápidas para el descenso de gradiente en la optimización convexa suave a través de una técnica de análisis asistida por computadora. Aquí, los autores analizan el efecto general de una iteración sobre múltiples iteraciones en lugar de la típica inducción de una sola iteración utilizada en el análisis de la mayoría de los métodos de primer orden, lo que permite estrategias de tamaño de paso no constante.

Los resultados muestran que los tamaños de paso más grandes aumentan el valor objetivo a corto plazo, pero logran una convergencia demostrablemente más rápida a largo plazo. Además, a través de una simple verificación numérica, el autor también propone una conjetura que prueba una velocidad de descenso del gradiente O (1/T log T) más rápida.

Específicamente, la prueba de los autores se basa en la idea del problema de estimación de rendimiento (PEP), que calcula o restringe las instancias del problema del peor de los casos para un algoritmo dado como un programa semidefinido (SDP). En virtud de la existencia de una solución factible al SDP correlacionado, los autores prueban la garantía de descenso después de aplicar el modo de tamaño de paso no constante, y así obtener garantías de convergencia más rápidas.

En la práctica, el diseño de métodos de descenso de gradiente de paso no constante demostrablemente más rápidos equivale a encontrar patrones de tamaño de paso sencillos con valores de tamaño de paso promedio grandes. Demostrar un patrón dado es simple y se puede hacer usando programación semidefinida, vea el Teorema 3.1. La Tabla 1 a continuación muestra los modos de paso directo con garantías de convergencia cada vez más rápidas, donde cada modo se verifica utilizando una solución de programación semidefinida aritmética exacta generada por computadora. El trabajo futuro identificará modos directos con tamaños de paso más grandes y otras estrategias de pasos grandes periódicas, no constantes y tratables. Sin embargo, encontrar patrones largos de pasos directos h es difícil, y el conjunto de todos los patrones directos no es convexo, lo que resulta en búsquedas locales a menudo infructuosas. Como se muestra en la Tabla 1, se crea un patrón de longitud t = 2^m − 1 repitiendo t = 2^m−1 − 1 dos veces, agregando un nuevo paso largo en el medio y acortando la longitud 2^m manualmente −1 Pasos largos en el subpatrón −1. Según los autores, este patrón recursivo tiene fuertes similitudes con los patrones circulares y fractales de Chebyshev de minimización cuadrática en estudios previos, y aún no se ha demostrado la conexión entre ellos.

Los autores dicen que su enfoque es muy similar al propuesto por primera vez por el investigador de optimización de Penn Jason Altschuler, quien estableció un patrón de pasos repetidos de longitud 2 o 3 y se redujo más rápido hacia el minimizador para lograr un cambio mínimo suave y fuertemente convexo.

Para obtener más detalles, consulte el artículo original. ¿Qué software es?  http://143ai.com

De pequeños pasos a grandes pasos, rompiendo el límite de longitud

Sabemos que la sabiduría convencional en el campo ha sido utilizar pasos pequeños durante décadas, aunque nadie puede demostrar que cuanto más pequeño, mejor. Esto significa que en la ecuación de descenso del gradiente, el tamaño del paso no es mayor que 2.

Con los avances en la tecnología asistida por computadora, los teóricos de la optimización han comenzado a probar técnicas cada vez más extremas. En un trabajo publicado recientemente en la revista Programación matemática, Das Gupta y otros pidieron a las computadoras que encontraran el tamaño de paso óptimo para un algoritmo limitado a 50 pasos, un tipo de problema de metaoptimización. Descubrieron que la longitud de los 50 pasos óptimos variaba ampliamente, con un paso en la secuencia que casi alcanzaba la longitud 37, muy por encima del límite superior típico de longitud 2.

Dirección del artículo: https://link.springer.com/article/10.1007/s10107-023-01973-1
Este resultado muestra que a los investigadores de optimización les falta algo. Entonces, por curiosidad, Grimmer transformó los resultados numéricos de Das Gupta en un teorema más general. Para romper el límite superior arbitrario de 50 pasos, exploró el tamaño de paso óptimo para una secuencia repetible, acercándose a la respuesta óptima con cada repetición. Grimmer hizo que la computadora permutara secuencias de pasos millones de veces para encontrar aquellos que convergían en una respuesta más rápido.

Grimmer encontró que las secuencias más rápidas siempre tienen en común que el paso del medio siempre es grande, cuyo tamaño depende del número de pasos en la secuencia repetida. Para la secuencia de 3 pasos, la longitud de zancada es 4,9; para la secuencia de 15 pasos, el algoritmo sugiere un tamaño de paso de 29,7; para la secuencia más larga de 127 pasos de la prueba, el tamaño máximo de paso en el medio es 370. Los resultados finales muestran que la secuencia alcanza el punto óptimo casi tres veces más rápido que los pequeños pasos sucesivos.

Aunque la teoría es nueva, no puede cambiar el uso actual

Este enfoque de bucle representa una forma diferente de pensar sobre el descenso de gradiente, dice Aymeric Dieuleveut, investigador de optimización en la École Polytechnique en Francia. "Mi instinto me dice que no debería pensar en un problema paso a paso, sino en varios pasos seguidos. Creo que mucha gente se lo pierde", dijo.

Pero si bien estas ideas pueden cambiar la forma en que los investigadores piensan sobre el descenso de gradiente, probablemente no cambiarán la forma en que se usa actualmente la técnica. Después de todo, el artículo de Grimmer solo se ocupaba de las funciones suaves, las funciones suaves sin dobleces pronunciados y las funciones convexas con forma de cuenco con un único valor óptimo en la parte inferior. Estas funciones son fundamentales en teoría pero menos importantes en la práctica. Los procedimientos de optimización utilizados por los investigadores de aprendizaje automático suelen ser mucho más complejos.

Gauthier Gidel, investigador de optimización y aprendizaje automático en la Université de Montréal, dice que las técnicas mejoradas podrían hacer que el método de pasos grandes de Grimmer sea más rápido, pero esas técnicas tienen un costo adicional para ejecutar. Por lo tanto, la gente siempre ha esperado que el método de descenso de gradiente convencional pueda ganar con la combinación correcta de tamaños de paso. Desafortunadamente, la aceleración triple del nuevo estudio no fue suficiente.

Gidel planteó su propia pregunta: "Aunque muestra una ligera mejora, creo que la verdadera pregunta es: ¿podemos realmente cerrar esta brecha?"

Estos resultados también presentan otro misterio teórico que ha mantenido despiertos a los autores. ¿Por qué los patrones ideales de tamaños de pasos tienen formas tan simétricas? No solo el paso más grande siempre está exactamente en el medio, sino que el mismo patrón ocurre a cada lado: continuar acercando y subdividiendo la secuencia da como resultado un "patrón casi fractal" con pasos grandes rodeados por otros más pequeños. Esta repetición implica que una estructura subyacente está gobernando la solución óptima, que nadie ha podido explicar aún.

Pero el autor de este artículo al menos tiene esperanza: "Este rompecabezas, si no puedo resolverlo, alguien más lo hará".

Enlace original: https://www.quantamagazine.org/risky-giant-steps-can-solve-optimization-problems-faster-20230811/

Homenaje al jefe~

Supongo que te gusta

Origin blog.csdn.net/qq_29788741/article/details/132266675
Recomendado
Clasificación