métodos de entrenamiento de la red neuronal evolución Pytorch--

1. Introducción

Hoy nos gustaría hablar de cómo acelerar el proceso de formación de redes neuronales.
Comunes son los siguientes:

1, el estocástico pendiente de descenso (SGD)
2, Momentum
3, AdaGrad
4, RMSProp
5, Adam

Las redes neuronales más complejas, más y más datos, tenemos que pasar tiempo en el proceso de entrenamiento de la red neuronal de la más sencilla razón es porque el cálculo es demasiado grande. Pero muchas veces con el fin de resolver problemas complejos, complejas estructuras de datos y grande que no se puede evitar, así que tenemos que encontrar alguna manera para que la red neuronal sabia, levántate.

2.SGD (estocástico pendiente de descenso)

Por lo tanto, la forma más básica es la de SGD, a un conjunto de datos, si los métodos ordinarios de formación, tiene que repetir constantemente todo el conjunto de datos en una red neuronal NN formación, por lo que consumen recursos informáticos serán grandes.

Ponemos otro pensamiento, si estos datos a dividirse en pequeños grupos de lotes pequeños, para luego continuar en lotes NN en el cálculo, esto es lo que suelen decir SGD manera correcta para abrir cada vez que utiliza los datos del lote, aunque la situación no refleja los datos globales, pero se aceleró en gran medida el proceso de formación NN, pero también sin perder mucha precisión. Si se utiliza en el SGD, todavía la formación demasiado lento, ¿cómo hacer?

No hay problema, resulta que, SGD no es el método más rápido de la formación, pero es hora de aprender a alcanzar el objetivo de estos métodos es el más largo. Tenemos muchas otras formas de acelerar la formación

3.Momentum (impulso)

Aquí Insertar imagen Descripción
La mayor parte de las otras formas en la renovación de los parámetros de red neural que paso en las manos y los pies en movimiento. El parámetro W tradicional es actualizar el original W cansado, más una tasa negativa del aprendizaje (tasa de aprendizaje) multiplicado por el valor de corrección (dx). Este método pueden hacer que el proceso de aprendizaje muy tortuoso, cuando la gente se ve en casa como un borracho, se tambaleó tomar una gran cantidad de desvíos.
Aquí Insertar imagen Descripción
así que pusimos este hombre en una rampa desde el suelo, siempre y cuando caminaba hacia una dirección de descenso poco, debido a la inercia a la baja, no ha conscientemente bajar, tomar el desvío se convierte en cada vez menos. esta es la actualización de parámetros Momentum.

4.AdaGrad

Aquí Insertar imagen Descripción
Este enfoque es el aprendizaje práctico a los pies de la parte superior, de modo que cada actualización de parámetros tendrá su propio ritmo de aprendizaje único, el impulso y su papel es similar, pero no para las personas horario borracho otra cuesta abajo, pero para darle un par de zapatos para caminar, lo que hace de él un batido de caminar sobre el dolor de pies, los zapatos se convirtió en una desvíos de resistencia, lo que le obligó a caminar marcha recta. su forma matemática es la siguiente.

5.RMSProp

Si el descenso y buenos zapatos para caminar combinados, no es mejor? Sí, tenemos un método de actualización RMSProp.
Aquí Insertar imagen Descripción
Con el impulso del principio de inercia, junto con la resistencia adagrad a la dirección equivocada, nos pueden ser incorporados en esto. dejar que RMSProp también tienen la ventaja de ambos métodos, pero los compañeros de clase cuidadosas sin duda lo vieron, parece menos de lo que RMSProp. nosotros no hemos resultado ser el impulso fusión completa, RMSProp también la falta de impulso en esta parte. por lo tanto, tenemos métodos Adam componen esta idea

6.Adam

Aquí Insertar imagen Descripción
Momentum se calcula cuando hay m bajando propiedades, tiene propiedades de resistencia adagrad cálculo de v y, a continuación, de nuevo cuando los parámetros de actualización M y V se toman en cuenta. Los resultados experimentales muestran que la mayoría de las veces, el uso de más rápido y más capaz de alcanzar el adam objetivo convergencia rápida. Por lo tanto, cuando se acelera la formación de redes neuronales, un descenso, un par de zapatos rotos, aportado.

Publicados 134 artículos originales · ganado elogios 366 · Vistas a 10000 +

Supongo que te gusta

Origin blog.csdn.net/weixin_37763870/article/details/104844089
Recomendado
Clasificación