Notas de estudio de convolución atroz

El tema de este blog proviene de este artículo: Cómo entender las convoluciones dilatadas (convoluciones dilatadas) , pero el autor parece haberlo escrito hace mucho tiempo y el diseño del texto es muy confuso. Escribiré uno nuevo yo mismo.

1. Propuesta de convolución dilatada

  1. Agregación de contexto multiescala mediante convoluciones dilatadas
  2. Redes residuales dilatadas

Aquí hay una nota en papel recomendada por el autor original. Si está interesado, puede consultar la nota en papel: CVPR 2017 Dilated Residual Networks .

Insertar descripción de la imagen aquí

2. Dificultades de comprensión

La imagen de arriba es la imagen original del artículo Agregación de contexto multiescala por convoluciones dilatadas.Podemos hacer algunas preguntas.

  • ¿Qué significa el punto rojo?
  • ¿Por qué el tamaño de la imagen no cambia con la convolución dilatada?
  • ¿Qué representa la imagen más externa de la imagen?

Insertar descripción de la imagen aquí


Insertar descripción de la imagen aquí

Esta imagen proviene del blog Una guía para la aritmética de campos receptivos.

La imagen de arriba puede ayudarlo a comprender mejor el campo receptivo de manera intuitiva. Esta imagen proviene de un blog, Una guía para la aritmética de campos receptivos para redes neuronales convolucionales . Si no la comprende, puede leer la versión traducida al chino , que es muy valioso como referencia. .

Según la fórmula de cálculo del campo receptivo, tenemos

lk = lk − 1 + ( ( fk − 1 ) ∗ ∐ i = 1 k − 1 si ) l_{k}=l_{k-1}+\left(\left(f_{k}-1\right) * \coprod_{i=1}^{k-1} s_{i}\right)yok=yok - 1+( ( fk1 )yo = 1k - 1syo)

Entre ellos, lk l_{k}yokes el késimo − 1 k-1kTamaño del campo receptivo de la capa 1 , fk f_kFkes el tamaño del núcleo de convolución de la capa actual, si s_isyoeste es el numero iiEl tamaño del paso de la capa i . Se puede deducir la fórmula de cálculo de la convolución atroz, que esencialmente consiste en agregar 0 en el medio de la suma de convolución, lo que expande el tamaño de la suma de convolución.

Sea el tamaño de la suma de convolución ordinaria fk f_kFk, entonces el tamaño del núcleo de convolución atroz equivalente es dk d_kdk, hay una fórmula

dk = ( fk − 1 ) × ( tasa − 1 ) + fk d_k=(f_k-1)\times (\mathrm{tasa}-1)+f_kdk=( fk1 )×( tasa1 )+Fk

De vuelta a la pregunta original

  • ¿Qué significa el punto rojo? Representa el centro del campo receptivo.
  • El tamaño del mapa de características obtenido por convolución dilatada no cambia.

Con respecto al cálculo del tamaño del mapa de características, tenemos la siguiente fórmula

n afuera = ⌊ n adentro + 2 p − ks ⌋ + 1 n_{\text {salida }}=\left\lfloor\frac{n_{\text {entrada }}+2 pk}{s}\right\rfloor+ 1nortefuera =snorteen +2p _k+1

Entre ellos, n fuera n_{\text {fuera}}nortefuera n en n_{\text {en }}norteen La subtabla representa la escala del mapa de características de la salida y la entrada, kkk representa el tamaño del núcleo de convolución,ppp representa el tamaño del relleno,sss representa el paso de la convolución.

Insertar descripción de la imagen aquí

Supongo que te gusta

Origin blog.csdn.net/m0_51143578/article/details/132327142
Recomendado
Clasificación