Red neuronal: puntos de conocimiento de la capa convolucional

1. ¿Cuáles son las características de la convolución?

La convolución tiene tres características principales :

  1. Conexión local . En comparación con la conexión completa, la conexión parcial reducirá en gran medida los parámetros de la red. En imágenes bidimensionales, los píxeles locales están altamente correlacionados y el diseño de conexiones locales garantiza una fuerte respuesta de la red convolucional a las características locales de la imagen.

  2. Compartir peso . Compartir parámetros también puede reducir la cantidad general de parámetros y mejorar la eficiencia del entrenamiento de la red. El peso del parámetro de un núcleo de convolución es compartido por toda la imagen y el peso del parámetro dentro del núcleo de convolución no cambiará debido a las diferentes posiciones en la imagen.

  3. Reducción de resolución . La reducción de resolución puede reducir gradualmente la resolución de la imagen, lograr una reducción de la dimensionalidad de los datos y combinar características locales poco profundas en características profundas. La reducción de resolución también puede reducir el consumo de recursos informáticos, acelerar el entrenamiento del modelo y controlar eficazmente el sobreajuste.

2. ¿Qué tipos de características se extraen mediante diferentes niveles de convolución?

  1. Convolución superficial → \rightarrow Extraer características de borde

  2. Convolución de capa media → \rightarrow Extraer características locales

  3. Convolución profunda → \rightarrow Extraer características globales

3. Cómo seleccionar el tamaño del núcleo de convolución

El más utilizado es 3 × 3 3\times33×Núcleo de convolución de 3 tamaños, dos3 × 3 3\times33×3 núcleos de convolución y un5 × 5 5\times55×Los campos receptivos de los 5 núcleos de convolución son los mismos, pero la cantidad de parámetros y cálculos se reduce, lo que acelera el entrenamiento del modelo. Al mismo tiempo, debido al aumento de los núcleos de convolución, la capacidad de expresión no lineal del modelo mejora considerablemente.

Insertar descripción de la imagen aquí

Sin embargo, los núcleos de convolución grandes ( 7 × 7, 9 × 9 7\times7, 9\times97×7 , 9×9 ) También hay espacio para su uso. Todavía hay muchas aplicaciones en GAN, superresolución de imágenes, fusión de imágenes y otros campos. Puede consultar artículos relevantes en los campos de interés según sea necesario.

4. Conceptos relacionados del campo receptivo de convolución.

Muchos modelos de detección y seguimiento de objetivos utilizan la capa RPN: el ancla es la base de la capa RPN y el campo receptivo (RF) es la base del ancla.

El papel de los campos receptivos:

  1. En términos generales, cuanto mayor sea el campo receptivo, mejor. Por ejemplo, el campo receptivo de la última capa convolucional en una tarea de clasificación debería ser mayor que la imagen de entrada.

  2. Cuando el campo receptivo es lo suficientemente grande, se ignora menos información.

  3. En la tarea de detección de objetivos, el ancla debe estar alineada con el campo receptivo. Si el ancla es demasiado grande o se desvía del campo receptivo, tendrá un cierto impacto en el rendimiento.

Cálculo del campo receptivo:

Insertar descripción de la imagen aquí

Formas de aumentar el campo receptivo:

  1. Utilice convolución atroz

  2. Usar capa de agrupación

  3. Aumentar el núcleo de convolución

5. ¿Cada capa de la red solo puede utilizar un tamaño de núcleo de convolución?

Las redes neuronales convencionales generalmente usan solo un tamaño de núcleo de convolución para cada capa, pero el mapa de características de la misma capa puede usar múltiples núcleos de convolución de diferentes tamaños para obtener características de diferentes escalas y luego combinar estas características para obtener Las características a menudo son mejores que aquellos que usan un núcleo de convolución de tamaño único. Por ejemplo, las redes de las series GoogLeNet e Inception utilizan múltiples estructuras de núcleo de convolución diferentes en cada capa. Como se muestra en la figura siguiente, el mapa de características de entrada pasa por
1 × 1 1\times 1 en la misma capa.1×1,3 × 3 3\veces33×3 y5 × 5 5\times55×5 Tres tamaños diferentes de núcleos de convolución y luego integrando sus respectivos mapas de características, las nuevas características obtenidas pueden considerarse como una combinación de características extraídas de diferentes campos receptivos, que tendrán un poder expresivo más fuerte que un núcleo de convolución de un solo tamaño.

Insertar descripción de la imagen aquí

6.El papel de la convolución 1*1

1 ∗ 1 1 * 111Las principales funciones de la convolución son las siguientes:

  1. Realizar la interacción e integración de información de características.

  2. Aumente y disminuya dimensionalmente el número de canales del mapa de características. Al reducir la dimensionalidad, se puede reducir el número de parámetros.

  3. 1 ∗ 1 1*111 convolución + función de activación→ \rightarrow Aumentar la no linealidad y mejorar las capacidades de expresión de la red.

Insertar descripción de la imagen aquí

1 ∗ 1 1 * 111 La convolución se utilizó por primera vez en NIN (Network in Network) y luego se utilizó en redes como GoogLeNet y ResNet. Los amigos interesados ​​pueden seguir los detalles de estos estudios en papel.

7. El papel de la convolución transpuesta.

La convolución transpuesta aprende el método de muestreo ascendente óptimo a través del proceso de capacitación para reemplazar el método de muestreo ascendente de interpolación tradicional para mejorar el rendimiento de tareas específicas como la segmentación de imágenes, la fusión de imágenes y GAN.

La transposición de convolución no es la operación inversa de la convolución. Desde la perspectiva de la teoría de la información, la operación de convolución es irreversible. La convolución transpuesta puede restaurar el tamaño del mapa de características de salida al tamaño del mapa de características antes de la convolución, pero no restaura el valor original.

La fórmula de cálculo de la convolución transpuesta:

Establecemos el tamaño del núcleo de convolución en K × KK\times Kk×K , el mapa de características de entrada esi × ii \times ii×i .

(1) zancada = 1, relleno = 0 zancada = 1, relleno = 0paso a paso _ _ _=1 p y suma en g=0 horas:

El mapa de características de entrada es equivalente a padding = K − 1 cuando se realiza una operación de convolución transpuesta. padding = K − 1relleno _ _ _ _=k1 relleno, seguido de operaciones de convolución estándar después de la transposición de convolución normal.

El tamaño del mapa de características de salida = i + ( K − 1 ) i + (K − 1)i+( k1 )

(2) zancada > 1, relleno = 0 zancada > 1, relleno = 0paso a paso _ _ _>1 p y suma en g=0 horas:

El mapa de características de entrada es equivalente a padding = K − 1 cuando se realiza una operación de convolución transpuesta. padding = K − 1relleno _ _ _ _=k1 relleno, el tamaño del agujero entre elementos adyacentes eszancada − 1 zancada − 1paso a paso _ _ _1 y luego realice la operación de convolución estándar después de la transposición de convolución normal.

El tamaño del mapa de características de salida = zancada ∗ (i − 1) + K zancada * (i − 1) + Kpaso a paso _ _ _( i1 )+k

8. El papel de la convolución atroz

La función de la convolución dilatada es aumentar el campo receptivo sin perder información mediante operaciones de agrupación, de modo que cada salida de convolución contenga una gama más amplia de información .

La convolución atroz tiene un parámetro para establecer la tasa de dilatación, que llena la tasa de dilatación con ceros en el núcleo de convolución. Por lo tanto, cuando se establecen diferentes tasas de dilatación, los campos receptivos serán diferentes y se obtendrá información de múltiples escalas.

Insertar descripción de la imagen aquí

(a) La imagen corresponde a 3 × 3 3\times33×La conv 1-dilatada de 3 es la misma que la operación de convolución ordinaria. (b) La imagen corresponde a3 × 3 3\times33×Para conv dilatada 2 de 3 , el tamaño real del núcleo de convolución sigue siendo3 × 3 3\times33×3 , pero el agujero es1 11 , es decir, para un7 × 7 7\times77×Parche de imagen para 7 , solo 9 99 puntos rojos y3 × 3 3\times33×La operación de convolución ocurre en el núcleo 3 y los pesos de los puntos restantes son0 00 . ©La figura es una operación conv de 4 dilataciones.

9. ¿Cuál es el efecto tablero de ajedrez de la convolución transpuesta?

La causa del efecto tablero de ajedrez es la superposición desigual de las convoluciones transpuestas. Esta superposición hace que algunas partes de la imagen sean más oscuras que otras.

La siguiente figura muestra el proceso de formación del efecto tablero de ajedrez. La parte oscura representa la superposición desigual:

efecto tablero de ajedrez

A continuación, cambiamos el tamaño del paso de convolución a 2. Podemos ver que todos los píxeles de la imagen de salida reciben la misma cantidad de información de la imagen de entrada. Todos reciben un píxel de información de la imagen de entrada, por lo que no hay conversión. El área de superposición causada por la colocación del volumen.

También podemos realizar directamente la operación de cambio de tamaño de interpolación y luego realizar la operación de convolución para eliminar el efecto de tablero de ajedrez. Este método es más común en escenarios de reconstrucción de superresolución. Por ejemplo, para el muestreo ascendente se utilizan métodos como la interpolación bilineal y la interpolación del vecino más cercano.

10.¿Qué es el campo receptivo efectivo?

El conocimiento relevante sobre los campos receptivos se introdujo en la Sección 4 anterior.

Echemos un vistazo al conocimiento relevante del campo receptivo efectivo (ERF).

En términos generales, el campo receptivo efectivo en el mapa de características es más pequeño que el campo receptivo real. Su eficacia, basada en el punto central, disminuye hacia los bordes como una distribución gaussiana.

En general, el campo receptivo describe principalmente la cantidad máxima de información en el mapa de características, y el campo receptivo efectivo describe principalmente la efectividad de la información.

11. Conocimientos relacionados con la convolución grupal.

Group Convolution (Group Convolution) apareció por primera vez en la red AlexNet y se utiliza para dividir la red para que pueda ejecutarse en paralelo en múltiples GPU.

La diferencia entre convolución agrupada y convolución ordinaria.

Al realizar operaciones de convolución ordinarias, si el tamaño del mapa de características de entrada es C × H × WC\times H \times WC×h×W , hay N núcleos de convolución, entonces el mapa de características de salida es el mismo que el número de núcleos de convolución, que también es N. El tamaño de cada núcleo de convolución esC × K × KC\times K \times KC×k×K , los parámetros totales de N núcleos de convolución sonN × C × K × KN \times C \times K \times Knorte×C×k×K. _

La convolución agrupada agrupa principalmente los mapas de características de entrada y luego cada grupo se convoluciona por separado. Si el tamaño del mapa de características de entrada es C × H × WC\times H \times WC×h×W , el número de mapas de características de salida esNNN , si lo configuramos para que se divida en G grupos, el número de mapas de características de entrada para cada grupo esCG \frac{C}{G}GRAMOC, entonces el número de mapas de características de salida en cada grupo es NG \frac{N}{G}GRAMOnorte, el tamaño de cada núcleo de convolución es CG × K × K \frac{C}{G} \times K \times KGRAMOC×k×K , el número total de núcleos de convolución sigue siendo N, y el número de núcleos de convolución en cada grupo esNG \frac{N}{G}GRAMOnorte, el núcleo de convolución solo convoluciona con el mapa de entrada del mismo grupo. La cantidad total de parámetros del núcleo de convolución es N × CG × K × KN \times \frac{C}{G} \times K \times Knorte×GRAMOC×k×K ,es fácil conseguir que el número total de parámetros se reduzca al 1 G \frac{1}{G} originalGRAMO1

El papel de la convolución agrupada:

  1. La convolución agrupada puede reducir la cantidad de parámetros.
  2. La convolución agrupada puede considerarse como una operación escasa, que a veces puede lograr mejores resultados con un número menor de parámetros (equivalente a una operación de regularización).
  3. Cuando el número de grupos es igual al número de canales del mapa de características de entrada y el número de mapas de características de salida también es igual al número de mapas de características de entrada, la convolución de grupo se convierte en convolución en profundidad, lo que puede reducir aún más la cantidad de parámetros.

Supongo que te gusta

Origin blog.csdn.net/weixin_51390582/article/details/134980552
Recomendado
Clasificación