Otro popular red

SE-Net

los mecanismos de atención en la dirección de canal
Aquí Insertar imagen Descripción
Aquí Insertar imagen Descripción

  • Procesar
    En primer lugar, la operación de convolución imagen, a continuación, la puesta en común promedio global (squeeze) para el mapa de características, lo convierten en un vector 1x1xC luego a través de dos capas de FC (excitación), multiplicada por su mapa de función inicial, como una próxima de entrada.
  • ¿Por FC más dos
    más dos FC razón es que, si él sólo hizo la puesta en común en el mapa de características, sólo la imagen actual de la escala hizo un trato, pero la verdadera escala es la escala de todo el conjunto de datos, por lo que añadir FC, le permitió adaptarse a todo el conjunto de datos.
  • Cómo el parámetro de compresión
    de un completamente conectados comprimido en el C-canal C canales / r para reducir la cantidad de cálculos (seguido por el RELU), conectado a un segundo canal completo C y entonces revert (seguido de la sigmoide), r Se refiere a la relación de compresión.
  • Profundidad de la interacción
    en la capa temprana, que de una manera independiente del tipo de Característica de excitación, mejorando así la representación subyacente compartida. Más tarde las capas más profundas se vuelven gradualmente válido.

FCN

  • La convolución
    heatmap H'xW en el totalmente conectado es la capa de convolución, la salida 'de la última capa de la
    clasificación a nivel de píxeles
  • Convolución
    restaurar el tamaño función del tamaño de imagen original para dividir
  • Salto de capas de salto
    porque después de la última capa de agrupar perdido una gran cantidad de información, las capas de mapa de características antes y después de la toma del suplemento de la agrupación

RNN red neuronal recurrente

propagación hacia adelante

Aquí Insertar imagen Descripción
Aquí Insertar imagen Descripción

pb BPTT a través del tiempo

Aquí Insertar imagen Descripción
Aquí Insertar imagen Descripción
Aquí Insertar imagen Descripción

RNN problemas de memoria a corto plazo

Return Path × w cuando la matriz ha sido
un error en la transferencia hacia atrás obtenido, él mismo se multiplica por un parámetro W * activa derivada de la función en cada paso. Si W es un número menor que 1, tal como 0.9. este 0,9 multiplicado por el error continua, el error se pasará al punto inicial de tiempo es un número cercano a cero, por lo que por el momento inicial, equivalente a desapareció el error. ponemos esta cuestión se llama desaparece el gradiente o gradiente de difusión gradiente de fuga. por el contrario, si W es un número mayor que 1, tal como 1.1 y se multiplican constantemente cansado, entonces al final convertirse en número infinito RNN Chengsi este número infinito, en cuyo caso llamamos a la pendiente de la explosión, que es RNN común hay manera de recordar edad la causa de la memoria.

¿Cómo resolver explosión gradiente

  • valor de inicialización peso razonable. Inicialización de los pesos, de modo que cada neurona no toma el máximo o el mínimo posible a fin de evitar la desaparición de la región del gradiente.
  • En lugar de utilizar la función relu sigmoide y un tanh como la activación. Por favor referirse al principio del artículo introductorio de base cero en el aprendizaje de profundidad (4) - función de activación de convolución de una red neuronal.
  • Uso RNNs otras estructuras, como por ejemplo cuando la longitud de la red de memoria (LTSM) y la Unidad recurrente cerrada (GRU), que es el enfoque más popular. Vamos a introducir las dos redes en un próximo artículo.
    Referencia:
    Realización
    Comentarios

Cuando larga memoria a corto plazo redes Memorias de longitud

Aquí Insertar imagen Descripción
Olvidada puerta
Aquí Insertar imagen Descripción
puerta de entrada de
Aquí Insertar imagen Descripción
la puerta de salida
Aquí Insertar imagen Descripción
del estado actual de la entrada se calcula:
Aquí Insertar imagen Descripción
Estado actual Calculado:
Aquí Insertar imagen Descripción
salida final:
Aquí Insertar imagen Descripción

GRÚA

Unidad recurrente cerrada

LSTM proporciona únicamente sobre la base de la puerta de reposición de (Reset Puerta r t R_t ) Y actualizar la puerta (Puerta de actualización de t z_T )
Estado de la célula y la salida como una síntesis
Aquí Insertar imagen Descripción

Publicado 35 artículos originales · ganado elogios 2 · Vistas 1422

Supongo que te gusta

Origin blog.csdn.net/qq_30776035/article/details/104543428
Recomendado
Clasificación