algoritmo BP en la historia de la más clara Detallado

redes neuronales feedforward

En el artículo , "la red neuronal de regresión logística" (en adelante abreviado "LR a NN"), una pequeña noche para todo el mundo se describe el proceso que se extiende desde una red neuronal de regresión logística. En el "aprendizaje automático generalizada y redes neuronales" , una pequeña velada elaborar una red neuronal general. Esta es una red neuronal por completo en el estado de explicar la particularidad de las redes neuronales.

De hecho, este sencillo "LR a NN" en el diagrama, este artículo se habla de redes neuronales feedforward (prealimentar red neuronal).

 

v2-e3d638801ce8ad91a3235dbbe4307f1f_b.png

 

v2-7f86a5dcaac103cb669c97a4331d6ce9_b.png

Podemos ver, la ley de esta simple y cruda, es precisamente el modelo más clásico de una red neuronal. Es decir, un frente de cada unidad de la capa oculta (neuronas) acepta sólo una capa (con sólo una red de alimentación directa capa oculta, es decir, la capa de entrada de la capa anterior) se emite como una entrada, y envía el resultado a la ( para la red de alimentación directa sólo tiene una capa oculta, es decir, la capa de la capa de salida). Tales como la estructura de datos de red neural de la "hoja", entonces es un "gráfico acíclico dirigido" (es decir, la retroalimentación de la red de alimentación directa no está presente).

Aquí el borde, es decir, la fuerza de la conexión entre las células unitarias, es decir, los pesos. Imagínese, cuando el peso correcto entre las dos unidades es 0, la salida de una unidad ya no pasó a otra unidad por este borde, es decir, entre las dos unidades se desconecta (la ausencia de este borde ), por lo que los parámetros de modelo del modelo de red neuronal es no números sólo, ya que este modelo se basa en la presencia en el sistema nervioso biológica de la figura visualización de modelo de red neuronal parámetros también representa la conexión entre dos neuronas fuerza.

En el "aprendizaje generalizado máquina y redes neuronales" , una pequeña velada hablado sobre el llamado algoritmo de avance, es el modelo de cálculo y suposiciones función sólo, pero después del proceso de cómputo visual es a lo largo de una red neuronal "para antes de avanzar "mirada, por lo que un nombre. No les repetir aquí esta Susu algoritmo de falsos amigos.

De acuerdo con la máquina de aprendizaje marco, suponiendo que la función allí, también tenemos que considerar lo que es? Este supuesto, por supuesto, es cómo conseguir que funcione - es decir, cómo entrenar las redes neuronales en general y este modelos de aprendizaje automático en particular (es decir, el aprendizaje de los parámetros del modelo).

Edad de piedra

Supongamos que usted es un biólogo entienden totalmente matemática (aunque las matemáticas estudiante también era muy potente, a la derecha), se siente que desde un punto de vista biológico (los parámetros del modelo son vistos como la fuerza de la conexión entre las neuronas), la formación de redes neuronales tras una buena debe ser similar a ella?

Recordemos que la biología de la escuela secundaria, si dos neuronas están estrechamente vinculados, por lo que una excitabilidad de las neuronas conducen inevitablemente a la excitación neuronal conectado a él. Si después de numerosos experimentos, se encontró que para la neurona A y B de la neurona, siempre y cuando la emoción A, entonces B debe ser excitado, entonces eso es ciertamente una conexión muy estrecha (como un saltamontes cuerda entre A y B, un salto otro junto con la afirmativa), es decir, una a intensidad de la conexión B es muy grande! En otras palabras, el valor de A a B los parámetros del modelo debe ser muy grande.

La idea de que la biología de las matemáticas a poco, es decir, "Si activa las neuronas activadas B de A para llevar, en nombre de A y B son relevantes, por lo que la conexión entre A y B de peso adecuado debe ser fortalecida, que debe el aumento de los parámetros del modelo w_ {AB}(a representantes BA subíndice de llegar dirigida borde B) ".

Esta idea de cómo llamarlo? Llamada la " regla de Hebb ", esta idea es el algoritmo de red neuronal de aprendizaje más esencial, y es la idea más original.

Así que esta idea de cómo lograrlo?

Edad del bronce

Imagínese nuestra red alcanza tal condición:

 

v2-b8e1ab3f5846a3bd7b7597fb78826080_b.png

Obviamente, el modelo ha cometido un error! unidades de salida (capa de salida donde sólo una unidad) debería ser 1, los resultados de la predicción es 0! Que ha de ser excitado, en realidad el sueño! Según la regla de Hebb, debemos dejar que los relacionados con la unidad de salida de refuerzo de la excitabilidad neuronal, es decir, para aumentar la "neurona oculta capa de salida 1 (teoría llamada de activación profesional) del yuan", la conexión! El debilitamiento de la "salida de la capa oculta es 0 (inactivo)" neuronas conectadas!

Piense otra vez, "unidad, oculto está inactivo / salida 0" representa lo que?

Recuerde que el mapa "red neuronal de regresión logística" en las agrandadas estas unidades ocultas hacen?

 

v2-5c842f9eb5408bdc076bb9a68204dbbf_b.png

El núcleo es funciones ocultas unidades de activación, tales como sigmoide, tanh similares. Como sigmoide:

 

v2-f191c589acca3a080488c88d36d649e2_b.png

Por lo tanto, implícitamente salida de la unidad es cero, es decir, cuando no está activada, las unidades de medios de entrada oculta es negativo!

Por lo tanto, con el fin de regla de Hebb se encuentran, debe ser permitido reducir el peso de las neuronas inactivas neuronas reactivar el aumento del peso, entonces podemos entrar directamente en las unidades más ocultos de peso ah:

Es decir, para todas las unidades ocultas: w = w + a. (Nota: Un unidades ocultas es de entrada, las neuronas inactivas como negativo, un activo positivo)

Para este caso de la siguiente manera, es decir, 0 para ser de salida, la salida real del caso 1:

 

 

v2-742f1b33ac82820fb229cbe64916444b_b.png Por lo mismo con el razonamiento anterior, encontramos que mientras w manera de actualizar el frente anterior, a saber:

Para todas las unidades ocultas: w = wa. (Nota: Un unidades ocultas es de entrada, las neuronas inactivas como negativo, un activo positivo)

¿Hay alguna manera los dos casos anteriores que juntos representan?

Usted debe pensar en el ingenio, y que es:

w = w + (valor real - valor predicho) * a

Derecho ah, con esta regla general, se puede actualizar varias veces el peso de la capa oculta a la capa de salida de pesada - lo que es la regla? Este es el 1986 Rumellhart psicólogos cognitivos, que hicieron δ aprender las reglas , también conocida como la regla de Hebb generalizada , Hebb Se trata de una aplicación directa de la idea del algoritmo de aprendizaje de red neural!

Y así sucesivamente, no lo sentí deja vu? Rápidamente abrió el libro y ver el peso de BP algoritmo de fórmula actualización! BP no ha encontrado la ecuación de actualización de peso expresada por el significado de esta regla sorprendentemente similares!

De manera similar a la derecha -

Edad del hierro

Piense en la regla de Hebb generalizada, hicimos una cierta simplificación:

En primer lugar, la actualización de la dirección de peso es clara, pero que actualizar el tamaño del paso es directamente unidades ocultas una entrada, pero no probó que este es un paso más razonable. En segundo lugar, estamos aquí resta directamente el valor predicho, es también un enfoque heurístico utilizando un valor real.

Entonces, obviamente, esto generaliza la regla de Hebb matemáticamente más probable es que no óptimo, después de todo, esto es una heurística (es decir, trasiego nuestro cerebro) algoritmo. Entonces, ¿cómo obtener la mejor cosa que hacer? Es a partir de esta regla de la finalidad establecida para elevar el nivel superior de la teoría!

¿Cuál es el propósito de la regla de Hebb generalizada es?

El objetivo inmediato de la regla es hacer que la salida final cercano a la producción real, es decir, entre la salida del modelo y reducir la producción real de error . Esto se hace de manera que cada unidad es ponderación implícita modificación personalización , una dirección hacia el error se reduce a movimiento.

Y así sucesivamente! Una vez más, el enfoque específico es hacer que el peso de cada modificación unidades de personalización oculta, una dirección hacia el error se reduce a movimiento.

A continuación, repita! Esto se hace de manera que cada unidad es la modificación de personalización ponderación implícita, una dirección hacia el error se reduce al movimiento!

Entonces, ¿qué podemos hacer? Si hay una función directa se puede describir con este error! (¿No es que la pérdida de función de lo que lo hacen!) Así! Para ponderar el error de la variable independiente que es la dirección del error no reduce los pesos del gradiente de dirección negativa él. A continuación, dejar que el peso poco listo todavía para avanzar en esta dirección? (¿No es el descenso de gradiente él!)

 

v2-0e1bd1c47b194342f4956e6ee0c51c3c_b.png

Como se muestra, la variable independiente (eje x) es un peso, la variable dependiente (eje y) es el error! Obviamente una dirección para reducir el error en pesos es el negativo gradiente dirección ah ~

Así! En este momento, los pesos determinados gradiente negativo (es decir, el peso de cada caso en peso de unidades ocultas! Derivado)! Luego dejar que los pesos se mueven ciertos pasos en esta dirección! Repita este proceso de mover! Hasta que se minimiza el error, que la formación se completa! peso óptimo!

Entonces, ¿qué? Esta es la pendiente de descenso ah ~ Mientras tanto, el algoritmo BP que está oculto pesos de conexión de capa y el peso de la capa de salida método de actualización, ¡ah!

Entonces, ¿cómo actualizar capa de entrada derecha al peso de la capa oculta de la misma?

De la misma manera, las ideas matemáticas son tan claras - el error sigue siendo el error, sólo tendrá que sustituir la capa de entrada variable independiente a la capa oculta de los pesos pesados , que pueden no del todo todavía otros amigos ~ ah.

Sin embargo, la pérdida de la función "comprende indirecta" capa de entrada a la capa oculta pesos pesados, por lo que en este caso la pendiente negativa requerida, para llevar a cabo un derivado de la cadena ~ es malo calle siguiente razonamiento:

 

 

v2-399ad2c72ab0600007d804734a13fc92_b.png

 

v2-5dbf55d7edc3ac64ab135b5500c4bb74_b.png Este razonamiento se toma de http://blog.csdn.net/lu597203933/article/details/46575803 , está interesado puede ir a ver, de todos modos, donde se puede encontrar la derivación ~

Matemáticas buena vista leer, hablar no es bueno para encontrar fácilmente el libro o publicar algoritmo BP de ustedes, esto es realmente un mal razonamiento calle. . . Por lo tanto, el gradiente negativo de los pesos de cada capa usando el método de derivación cadena arriba es muy fácil de averiguar, entonces w = w-α * gradiente negativo , que puede ser amigos ~, ~ [alfa] es el tamaño de paso

Look, desde el entrenamiento de la red neural de los más ingenua de Hebb pensó, a fin de realizar esta idea y algoritmo δ propuesto, un algoritmo matemático para describir la naturaleza de la δ objetivo, obtenido mediante la introducción de una función de gradiente solucionador negativo y pérdida (derivado de la cadena) peso a peso proceso de actualización, es decir, el algoritmo de backpropagation error (backpropagation, conocido como algoritmo BP).

╮ (╯ ▽ ╰) ╭

Pero en una red neuronal Visualizar lo que parece una propagación de errores personas definidas sólo amigos de la capa de entrada al modelo de capa de salida, luego se levantó nombre de la imagen se llama algoritmo de propagación hacia atrás.

Sin embargo, se abstrae de este concepto hacia adelante y hacia atrás algoritmo aún más razón, uno puede ayudar a la gente a entender que puede explicarse a partir de un modelo biológico, entonces esta idea a cabo otras formas de distorsión el algoritmo de avance y propagación hacia atrás para describir o formación de redes neuronales más complejas, y por otro lado también en nuestro simio programa (maullido) que proporciona un modelo de programación simple sin el cerebro, por lo que incluso si no entienden la cadena, como derivación BP programa de principio algoritmo mono puede escribir fácilmente el algoritmo matemático no es demasiado simple.

Publicado 33 artículos originales · ganado elogios 0 · Vistas 3296

Supongo que te gusta

Origin blog.csdn.net/xixiaoyaoww/article/details/104553546
Recomendado
Clasificación