DÍA 2 - RNN notas de aprendizaje de la red neuronal

red neural totalmente conectado y red neuronal de convolución, que sólo puede tener una sola proceso de entrada por una, después de una entrada anterior y la entrada es totalmente irrelevante. Sin embargo, algunas tareas necesitan ser capaces de secuencia de procesamiento mejor información, es decir, la entrada y la parte frontal de entrada de este último hay una relación. Por ejemplo, cuando entendemos el significado de una oración, aislado entender cada palabra de esta frase no es suficiente, tenemos que hacer frente a toda la secuencia de estas palabras están conectados entre sí; cuando tratamos con el video, no podemos ir solos análisis de cada trama, y para analizar la secuencia completa de los marcos están conectados entre sí. En este punto, es necesario utilizar la profundidad de campo de estudio es importante en otro tipo de redes neuronales: red neuronal recurrente (recidivante
red neuronal).

RNN utiliza a menudo en el lenguaje de secuencias de procesamiento de una computadora para entender la semántica de una oración, y de acuerdo con el texto antes y después de entender la semántica lograr los resultados que queremos.

red neural cíclico básico
A continuación se muestra un bucle simple tal como la red neural, que consiste en una capa de entrada, una capa oculta y una capa de salida:
Aquí Insertar imagen Descripción
La figura puede verse implementado como un redes neuronales totalmente conectadas, pero en la salida de la capa escondida será tomada cuando el valor de salida se almacena en un nodo, y esto forma la entrada para hacer este cálculo en la siguiente capa oculta el valor de salida de la entrada de entrenamiento y el valor actual, y se almacena en el nodo de salida cuando la salida de corriente para proporcionar el siguiente uso.
Aquí Insertar imagen Descripción

上图为每一次训练的过程,每次训练都会将输出作为下一次输入的参数,由此可提取出公式:

Aquí Insertar imagen Descripción
Fórmula 1 fórmula es la capa de salida, la capa de salida es una capa totalmente conectado, es decir, cada uno de sus nodos y cada nodo está conectado a la capa oculta. V es la matriz de peso de la capa de salida, g es la función de activación. Ecuación 2 se calcula en la capa oculta, cuya capa es cíclico. U es la matriz de entrada x peso peso, W es el último valor de S (t-1) introducida esta vez como el peso de la matriz de pesos, f es la función de activación.

Aquí Insertar imagen Descripción

Sin embargo, sólo la red unidireccional RNN no es lo suficientemente útil, porque las necesidades de frases que se definen de acuerdo con la semántica del texto antes y después, en lugar de limitarse a definir por lo anterior, hay red neuronal de este modo bidireccional circular
Aquí Insertar imagen Descripción
en el que las necesidades de información de salida para almacenar dos nodos , a y A`, uno para la propulsión hacia adelante, uno para la propulsión inversa, la salida final depende de dos nodos de almacenamiento, que con una palabra que tiene la misma semántica de seguir el texto.
Aquí Insertar imagen Descripción
Aquí Insertar imagen Descripción
Aquí Insertar imagen Descripción
Aquí Insertar imagen Descripción
propagación hacia adelante (dirección de la flecha negro):

Entrada X,

capa oculta: ly1 = sigmoide (x * W0) + pre_ly1 ​​* Wh,

Consta de dos partes, una parte es el valor de entrada por un peso, y luego a través de una función de activación (sigmoide expresadas en este documento utiliza temporalmente), la otra parte es la capa delantera es un resultados ocultos estado guardado.

capa de salida: LY2 = sigmoide (ly1 * w1),

Multiplicando la salida de los valores de la capa y el peso de salida ocultos, obtenida a través de la función de activación.

procedimiento de retropropagación (rojo dirección de la flecha):

El valor real de Y, el valor previsto de la salida de la LY2 capa de salida, tanto la diferencia: Y-LY2 = err, error total calculado Err = 1/2 (Y-LY2) ^ 2, que es el error cuadrático. El siguiente paso es usar el derivado de regla de la cadena, una de propagación inversa de error, primero, la salida de la última LY2 error, derivadas parciales Err LY2 se calcula para obtener:

delta_ly2 = (Y-LY2) * sigmoide '(LY2),

Tenga en cuenta que esta función es un derivado LY2 sigmoide. Y Y-LY2 = err, por lo ERR = delta_ly2 sigmoide (LY2), se calcula el siguiente error de la capa oculta, se puede ver a partir del dibujo, el paso inverso sobre la capa oculta hay dos errores, uno es un estado oculto tras capa de error (propagación de nuevo a los próximos necesidades estatales para volver a un estado anterior): next_ly1 Wh, y el otro se transmite el error de capa de salida: delta_ly1 delta_ly2 = W1 de sigmoide '(LYI),

Esta ecuación se deriva de la regla de la cadena, cada paso requiere el cálculo del error de corriente multiplicada por el paso anterior de error, por lo que hay una delta_ly2, porque entonces sigmoide = LY2 (LYI W1 de), de acuerdo con la regla de la cadena para calcular LY2 LYI derivados obtienen W1 de singmoid '(LYI).

Similar a backpropagation totalmente conectado, pero después de la introducción de la influencia de un contador-de propagación en la capa de propagación oculta.

Mientras tanto, cuando la secuencia es demasiado largo propenso a gradiente de explosión o desaparece gradiente, porque la pérdida de la función es una función exponencial, puede conducir a aumentar o disminuir el valor del parámetro es demasiado grande, la explosión ocurrió gradiente o desaparece de gradiente.

vectorización palabra
de entrada a la red neuronal es la palabra, que puede entrar en la vectorización usando los siguientes pasos:

1, para crear un diccionario que contiene todas las palabras, cada palabra en el diccionario que tiene un número único.
2, una palabra puede ser cualquier vector de una sola caliente con una N-dimensional representar. En donde, N es el número de palabras contenidas en el diccionario. Palabra número en una sola caliente vector, la posición 1 se encuentra, las posiciones restantes son 0
Aquí Insertar imagen DescripciónUtilice este método para cuantificar, obtenemos un vector escaso de alta dimensión (se refiere escasos para el valor de la mayoría de los elementos es 0). Se requiere un método especial para reducir la dimensionalidad.
función de probabilidad softmax continuación, se utiliza para calcular el término siguiente, los
Aquí Insertar imagen Descripción
entrenamiento del modelo
necesidades modelo de entrenamiento para ser entrenados y luego se colocan en el modelo de segmentación declaración, antes de introducir una palabra, y luego después de una palabra como un estudio de etiqueta

Aquí Insertar imagen Descripción

Publicado 17 artículos originales · ganado elogios 1 · vistas 3427

Supongo que te gusta

Origin blog.csdn.net/weixin_43983570/article/details/105169312
Recomendado
Clasificación