Domine el aprendizaje profundo en un artículo (6): comprenda a fondo la propagación hacia adelante / hacia atrás

En el último capítulo, aprendimos sobre la derivada y la regla de la cadena. Creo que todos deberían haberlo aprendido. Este capítulo comienza a aprender sobre la propagación hacia adelante y hacia atrás en el aprendizaje profundo.

Ya expliqué la regresión logística antes, este capítulo usa la regresión logística como ejemplo para explicar la propagación hacia adelante y hacia atrás.

Recordemos la fórmula de regresión logística que aprendimos anteriormente:

Propagación hacia adelante

La comprensión de la propagación hacia adelante es relativamente simple El proceso de obtener la salida de la entrada a través del cálculo de la capa oculta es el proceso hacia adelante, también conocido como propagación hacia adelante.

Suponemos que la muestra tiene dos valores propios, respectivamente x1, x2, entonces el método de cálculo de la propagación hacia adelante es el siguiente:

La llamada propagación hacia adelante, es decir, partiendo de la entrada, calculando según la dirección de la flecha, y finalmente obteniendo el valor de la función de pérdida, esta es una propagación hacia adelante.

Propagación hacia atrás

La propagación hacia atrás es lo opuesto a la dirección de cálculo de la propagación hacia adelante. Calcula el gradiente (derivada parcial) de cada capa de parámetros a través de la función de pérdida y el flujo inverso de la red para actualizar los parámetros, como se muestra en la siguiente figura:

El objetivo final de la retropropagación es minimizar el valor de la función de pérdida actualizando los parámetros. El método específico es calcular el gradiente de los parámetros paso a paso de acuerdo con las flechas naranjas y luego actualizar los parámetros.

Dado que la retropropagación es muy importante, la derivaré paso a paso a continuación. Espero que todos puedan ganar algo después de leer este artículo.

1. A partir de la función de pérdida L \ left (a, y \ right), el unagradiente calculado :

\ frac {\ parcial L} {\ parcial a} = -\frac{y}{a}+\frac{1-y}{1-a}

2. conEl gradiente calculado a continuación :

\ frac {\ L parcial} {\ parcial z} = \ frac {\ parcial L} {\ parcial a} \ veces \ frac {\ parcial a} {\ parcial z}

Lo \ frac {\ parcial L} {\ parcial a}que hemos calculado en el paso anterior, simplemente calculamos \ frac {\ parcial a} {\ parcial z}lata.

Donde a = \ sigma \ left (z \ right)= \ frac {1} {1 + e ^ {- z}}, entonces \ frac {\ parcial a} {\ parcial z}=a \ left (1-a \ right)

Entonces \ frac {\ L parcial} {\ parcial z} = \ frac {\ parcial L} {\ parcial a} \ veces \ frac {\ parcial a} {\ parcial z} = \ left (- \ frac {y} {a} + \ frac {1-y} {1-a} \ right) \ times a \ left (1-a \ right) = ay 

3. Luego, el w1, w2, b gradiente calculado :

\ frac {\ L parcial} {\ parcial w1} = \ frac {\ parcial L} {\ parcial a} \ veces \ frac {\ parcial a} {\ parcial z} \ veces \ frac {\ parcial z} {\ parcial w1}

Dónde \ frac {\ parcial L} {\ parcial a}y \ frac {\ parcial a} {\ parcial z}ya estamos buscando más, así que si les pides \ frac {\ parcial z} {\ parcial w1},

\ frac {\ parcial z} {\ parcial w1}=x1

luego\ frac {\ L parcial} {\ parcial w1} = \ frac {\ parcial L} {\ parcial a} \ veces \ frac {\ parcial a} {\ parcial z} \ veces \ frac {\ parcial z} {\ parcial w1} = \ left (- \ frac {y} {a} + \ frac {1-y} {1-a} \ right) \ times a \ left (1-a \ right) \ times x1 = \ left (ay \ derecha) x1

Lo mismo\ frac {\ L parcial} {\ parcial w2} = \ frac {\ parcial L} {\ parcial a} \ veces \ frac {\ parcial a} {\ parcial z} \ veces \ frac {\ parcial z} {\ parcial w2} = \ left (ay \ right) x2

Lo mismo\ frac {\ L parcial} {\ parcial b} = \ frac {\ parcial L} {\ parcial a} \ veces \ frac {\ parcial a} {\ parcial z} \ veces \ frac {\ parcial z} {\ parcial b} = ay

De esta forma, se actualiza el gradiente del parámetro, y solo es necesario actualizar el parámetro correspondiente:

w1 = w1- \ alpha \ times \ frac {\ parcial L} {\ parcial w1}

w2 = w2- \ alpha \ times \ frac {\ parcial L} {\ parcial w2}

b = b- \ alpha \ veces \ frac {\ parcial L} {\ parcial b}

Entre ellos se \alfaencuentra la tasa de aprendizaje, que es un hiperparámetro, lo que significa que se requiere depuración manual, se ha comentado en el artículo anterior, así que no lo repetiré aquí.

Creo que lo he cubierto con suficiente detalle. Si aún no lo entiende, por favor comente sus preguntas y las responderé una por una.

Si ha aprendido algo al leer este artículo, mueva su linda manita para prestar atención.

Lo anterior es todo el contenido de este artículo. Para obtener los materiales y cursos de aprendizaje profundo, escanee la cuenta oficial a continuación y responda a la palabra "datos" para obtenerla. Le deseo un feliz aprendizaje.

Supongo que te gusta

Origin blog.csdn.net/qq_38230338/article/details/107606628
Recomendado
Clasificación