Directorio de artículos
El tema de este blog proviene de este artículo: Cómo entender las convoluciones dilatadas (convoluciones dilatadas) , pero el autor parece haberlo escrito hace mucho tiempo y el diseño del texto es muy confuso. Escribiré uno nuevo yo mismo.
1. Propuesta de convolución dilatada
Aquí hay una nota en papel recomendada por el autor original. Si está interesado, puede consultar la nota en papel: CVPR 2017 Dilated Residual Networks .
2. Dificultades de comprensión
La imagen de arriba es la imagen original del artículo Agregación de contexto multiescala por convoluciones dilatadas.Podemos hacer algunas preguntas.
- ¿Qué significa el punto rojo?
- ¿Por qué el tamaño de la imagen no cambia con la convolución dilatada?
- ¿Qué representa la imagen más externa de la imagen?
La imagen de arriba puede ayudarlo a comprender mejor el campo receptivo de manera intuitiva. Esta imagen proviene de un blog, Una guía para la aritmética de campos receptivos para redes neuronales convolucionales . Si no la comprende, puede leer la versión traducida al chino , que es muy valioso como referencia. .
Según la fórmula de cálculo del campo receptivo, tenemos
lk = lk − 1 + ( ( fk − 1 ) ∗ ∐ i = 1 k − 1 si ) l_{k}=l_{k-1}+\left(\left(f_{k}-1\right) * \coprod_{i=1}^{k-1} s_{i}\right)yok=yok - 1+( ( fk−1 )∗yo = 1∐k - 1syo)
Entre ellos, lk l_{k}yokes el késimo − 1 k-1k−Tamaño del campo receptivo de la capa 1 , fk f_kFkes el tamaño del núcleo de convolución de la capa actual, si s_isyoeste es el numero iiEl tamaño del paso de la capa i . Se puede deducir la fórmula de cálculo de la convolución atroz, que esencialmente consiste en agregar 0 en el medio de la suma de convolución, lo que expande el tamaño de la suma de convolución.
Sea el tamaño de la suma de convolución ordinaria fk f_kFk, entonces el tamaño del núcleo de convolución atroz equivalente es dk d_kdk, hay una fórmula
dk = ( fk − 1 ) × ( tasa − 1 ) + fk d_k=(f_k-1)\times (\mathrm{tasa}-1)+f_kdk=( fk−1 )×( tasa−1 )+Fk
De vuelta a la pregunta original
- ¿Qué significa el punto rojo? Representa el centro del campo receptivo.
- El tamaño del mapa de características obtenido por convolución dilatada no cambia.
Con respecto al cálculo del tamaño del mapa de características, tenemos la siguiente fórmula
n afuera = ⌊ n adentro + 2 p − ks ⌋ + 1 n_{\text {salida }}=\left\lfloor\frac{n_{\text {entrada }}+2 pk}{s}\right\rfloor+ 1nortefuera =⌊snorteen +2p _−k⌋+1
Entre ellos, n fuera n_{\text {fuera}}nortefuera 和n en n_{\text {en }}norteen La subtabla representa la escala del mapa de características de la salida y la entrada, kkk representa el tamaño del núcleo de convolución,ppp representa el tamaño del relleno,sss representa el paso de la convolución.