SE-Net
los mecanismos de atención en la dirección de canal
- Procesar
En primer lugar, la operación de convolución imagen, a continuación, la puesta en común promedio global (squeeze) para el mapa de características, lo convierten en un vector 1x1xC luego a través de dos capas de FC (excitación), multiplicada por su mapa de función inicial, como una próxima de entrada. - ¿Por FC más dos
más dos FC razón es que, si él sólo hizo la puesta en común en el mapa de características, sólo la imagen actual de la escala hizo un trato, pero la verdadera escala es la escala de todo el conjunto de datos, por lo que añadir FC, le permitió adaptarse a todo el conjunto de datos. - Cómo el parámetro de compresión
de un completamente conectados comprimido en el C-canal C canales / r para reducir la cantidad de cálculos (seguido por el RELU), conectado a un segundo canal completo C y entonces revert (seguido de la sigmoide), r Se refiere a la relación de compresión. - Profundidad de la interacción
en la capa temprana, que de una manera independiente del tipo de Característica de excitación, mejorando así la representación subyacente compartida. Más tarde las capas más profundas se vuelven gradualmente válido.
FCN
- La convolución
heatmap H'xW en el totalmente conectado es la capa de convolución, la salida 'de la última capa de la
clasificación a nivel de píxeles - Convolución
restaurar el tamaño función del tamaño de imagen original para dividir - Salto de capas de salto
porque después de la última capa de agrupar perdido una gran cantidad de información, las capas de mapa de características antes y después de la toma del suplemento de la agrupación
RNN red neuronal recurrente
propagación hacia adelante
pb BPTT a través del tiempo
RNN problemas de memoria a corto plazo
Return Path × w cuando la matriz ha sido
un error en la transferencia hacia atrás obtenido, él mismo se multiplica por un parámetro W * activa derivada de la función en cada paso. Si W es un número menor que 1, tal como 0.9. este 0,9 multiplicado por el error continua, el error se pasará al punto inicial de tiempo es un número cercano a cero, por lo que por el momento inicial, equivalente a desapareció el error. ponemos esta cuestión se llama desaparece el gradiente o gradiente de difusión gradiente de fuga. por el contrario, si W es un número mayor que 1, tal como 1.1 y se multiplican constantemente cansado, entonces al final convertirse en número infinito RNN Chengsi este número infinito, en cuyo caso llamamos a la pendiente de la explosión, que es RNN común hay manera de recordar edad la causa de la memoria.
¿Cómo resolver explosión gradiente
- valor de inicialización peso razonable. Inicialización de los pesos, de modo que cada neurona no toma el máximo o el mínimo posible a fin de evitar la desaparición de la región del gradiente.
- En lugar de utilizar la función relu sigmoide y un tanh como la activación. Por favor referirse al principio del artículo introductorio de base cero en el aprendizaje de profundidad (4) - función de activación de convolución de una red neuronal.
- Uso RNNs otras estructuras, como por ejemplo cuando la longitud de la red de memoria (LTSM) y la Unidad recurrente cerrada (GRU), que es el enfoque más popular. Vamos a introducir las dos redes en un próximo artículo.
Referencia:
Realización
Comentarios
Cuando larga memoria a corto plazo redes Memorias de longitud
Olvidada puerta
puerta de entrada de
la puerta de salida
del estado actual de la entrada se calcula:
Estado actual Calculado:
salida final:
GRÚA
Unidad recurrente cerrada
LSTM proporciona únicamente sobre la base de la puerta de reposición de (Reset Puerta
) Y actualizar la puerta (Puerta de actualización
)
Estado de la célula y la salida como una síntesis