descenso de gradiente profundo aprendizaje

La dirección principal de resolver el problema de minimización, la idea básica es seguir a acercarse más ventajas, optimizar cada paso de la dirección del gradiente es

(1) estocástico método de descenso de gradiente:
Cada vez que una muestra aleatoria extrae del conjunto de muestras de cambios

Si desea recorrer todo el conjunto de la muestra, entonces tenemos que repetir muchas veces, y cada vez que la actualización no se llevó a cabo en la dirección óptima, por lo que cada paso "muy cuidadosos", que el aprendizaje estocástico descenso de gradiente tasa α no puede ser demasiado grande, sin embargo, probable que ocurra en las proximidades de la solución óptima, "choque", pero nunca ha sido capaz fenómeno más cerca de la solución óptima.
Pero desde otro punto de vista, este "choques de ida y vuelta" optimizados ruta cuando hay muchos función de pérdida mínimo local, el modelo puede evitar efectivamente caer en solución óptima local.

: (2) Método de pendiente de descenso estándar
y conjunto de muestras a continuación, los parámetros se actualizan después de calcular la suma de la función de pérdida

Lleva a cabo después de atravesar todo el peces conjunto de parámetros muestra las actualizaciones, por lo que va hacia abajo dirección es la dirección óptima, por lo que puede ser con seguridad en cada paso.
Por lo tanto, la tasa de aprendizaje del algoritmo en general que gran método de descenso de gradiente estocástico. La desventaja de este método de optimización es que requiere actualiza cada traverse todo el conjunto de la muestra, la eficiencia es relativamente baja, ya que en muchos casos todo el conjunto de la muestra y la porción de gradiente calculado del conjunto de muestras de la pendiente calculada no hay mucha diferencia.
(3) la pendiente de descenso de lote:
cada muestra aleatoria extraída desde el foco M (batch_size) iterativamente muestras

En comparación con los dos primeros términos, tanto para mejorar la exactitud del modelo, sino también mejorar la velocidad del algoritmo.
(4) Momentum pendiente de descenso:
también conocido como impulso es el método de descenso de gradiente, la idea básica es: solución función óptima pérdida puede ser visto como un proceso para resolver el balón desde la superficie (valor de función de pérdida expuesto en el plano de coordenadas del sistema) en algún lugar gotas hasta al menos la superficie del proceso a lo largo de la superficie, el gradiente de la función de pérdida puede ser considerada como una fuerza aplicada a la bola, por la acción de una fuerza con la velocidad, la posición de la bola se puede variar la velocidad.

En el que el coeficiente de impulso, el valor de tamaño, se puede determinar por trian y error, en la práctica a menudo 0,9 a.
No cambia inmediatamente la dirección del gradiente optimizado, y el valor de peso, es decir, la dirección del gradiente para optimizar cada dirección, pero la dirección para el cálculo previo y la optimización de este tiempo se calcula mediante la acumulación de un poco alterada, pero la acumulación de mayor. Los beneficios de este enfoque es que el gradiente optimizado obtenido a través de diferentes muestras de entrenamiento, el gradiente siempre aumentar el valor de la dirección óptima, es posible reducir el número de choques.
(5) Método de Momentum pendiente de descenso Nesterov:
a una mejora pendiente de descenso Momentum

Se ha obtenido, y se puede entonces "prospectivas paso", no la solución de la posición actual del gradiente, pero a la solución de gradiente. Aunque esta posición no es correcto, pero es mejor que la posición θ actual.

(6) AdaGrad pendiente de descenso:
AdaGrad diferente tasa de aprendizaje puede ser adaptativamente

algoritmo de optimización RMSProp AdaGrad es un Mejoras en el algoritmo, la idea central es utilizar un decaimiento exponencial de media móvil a caer el historial pasado distante.
(. 7) pendiente de descenso Adam
Adam gradientes y teniendo en cuenta el gradiente de la plaza, y tiene la ventaja de AdaGrad RMSprop. Adam primer orden y de segundo orden estimado de estimación del gradiente, la tasa de aprendizaje se ajusta de forma dinámica.

La primera vez que la pendiente media, la diferencia entre el segundo punto de tiempo a un lado no central de la pendiente, generalmente ajustado a 0,9, generalmente 0,9999 a, normalmente se establece 10-8.

Este método no sólo almacena la AdaDelta anterior gradiente cuadrado promedio de la disminución exponencial, pero mantiene el valor medio anterior de un gradiente de la decadencia exponencial M (t), que es similar a y el impulso.

tasa de aprendizaje (tasa de aprendizaje), modelo de control del progreso de aprendizaje

El comienzo de la formación: aprender tasa es apropiada desde 0,01 a 0.001.
Después de un cierto número de rondas: la desaceleración.
Cerca del final del entrenamiento: el aprendizaje de la caries tasa debe ser más de 100 veces.

Supongo que te gusta

Origin www.cnblogs.com/hello-bug/p/12524805.html
Recomendado
Clasificación