Modelo de red neuronal convolucional

Modelo de red neuronal convolucional

Red neuronal convolucional (LeNet)

Estructura del modelo : bloque de capa de convolución, bloque de capa de conexión completa

  • Bloque de capa convolucional: 2 capas convolucionales + estructura de capa de agrupación máxima . Dado que LeNet es una CNN anterior, después de cada capa convolucional + capa de agrupación, habrá una capa sigmod para corregir el resultado de salida. Ahora, Relu es más usado.
  • Bloque de capa totalmente conectado: la entrada es un vector bidimensional. Cuando la salida de un solo bloque de capa convolucional se pasa a la capa completamente conectada, cada muestra se aplanará (aplanará) en un lote pequeño

LeNet disminuirá gradualmente en ancho y aumentará en canales a medida que la red se profundice.

Red neuronal convolucional profunda (AlexNet)

Estructura del modelo : 5 capas de convolución + 2 capas de capas ocultas completamente conectadas + 1 capa de capas de salida completamente conectadas

  • Capa de convolución: Las dos primeras usan núcleos de convolución de 11x11 y 5x5, y el resto son núcleos de convolución de 3x3. Las capas convolucionales primera, segunda y quinta usan una capa de agrupación máxima de 3x3 con un paso de 2.
  • Capa completamente conectada: 2 capas completamente conectadas con 4096 salidas llevan casi 1 GB de parámetros de modelo.
  • Función de activación: AlexNet utiliza la función de activación de Relu. En comparación con sigmod, Relu tiene un cálculo más simple y es más fácil de entrenar con diferentes inicializaciones. Por ejemplo, bajo algunas inicializaciones especiales, la salida de sigmod en el intervalo positivo es extremadamente cercana a 0, lo que dificultará que el modelo continúe actualizándose, mientras que el valor de Relu en el intervalo positivo siempre es 1.
  • Sobreajuste: AlexNet utiliza el método de abandono para controlar la complejidad del modelo y evitar el sobreajuste. Y utiliza una gran cantidad de aumento de imágenes, que incluye voltear, recortar, cambiar colores, etc., para evitar aún más el sobreajuste.

Redes que utilizan elementos repetitivos (VGG)

Estructura del modelo : bloque VGG + bloque de capas completamente conectado

  • Bloque VGG: capa convolucional + capa de agrupación, todas las capas convolucionales se rellenan con 1 núcleo de convolución de 3x3 conectado a una capa de agrupación máxima con un paso de 2 y una ventana de 2x2
  • Bloque de capas completamente conectado: similar a LeNet

VGG es una red muy simétrica, cada capa aumenta o disminuye exponencialmente. En comparación con AlexNet, proporciona una idea de construcción simple y fija del modelo de convolución y el modelo de profundidad.

Redes en Redes (NiN)

Estructura del modelo : bloque NiN

  • Bloque NiN: AlexNet es una estructura que utiliza múltiples capas convolucionales + salida de capa totalmente conectada. NiN propone otra idea, que forma una red conectando pequeñas capas convolucionales + capas "totalmente conectadas" en serie . Dado que la capa completamente conectada es bidimensional y la capa convolucional generalmente es tetradimensional, el bloque NiN usa una capa convolucional 1x1 en lugar de una capa completamente conectada (cada elemento en la dimensión espacial (alto y ancho) es equivalente a una muestra , y el canal es equivalente a funciones). Cada capa convolucional es similar a AlexNet, 11 x 11, 5 x 5, 3 x 3. Y cada bloque de NiN va seguido de una capa de agrupación máxima con un paso de 2 y un tamaño de ventana de 3 x 3.

En comparación con AlexNet, NiN elimina las últimas 3 capas completamente conectadas, usa un bloque NiN cuyo canal de salida es igual a la categoría de la etiqueta y luego usa una capa de agrupación promedio global para promediar todos los elementos en cada canal y usarlo directamente para la clasificación. Este beneficio es que el tamaño del parámetro del modelo se puede reducir significativamente, pero aumentará el tiempo de entrenamiento.

Redes con conexiones paralelas (GoogLeNet)

  • Bloque de inicio: el bloque básico de GoogLeNet, que se basa en la idea de la red en serie de redes de NiN. Incluya 4 líneas paralelas en cada bloque de Inicio. Las primeras tres líneas usan capas convolucionales de 1x1, 3x3 y 5x5 para extraer información de entidades a diferentes escalas espaciales. En la segunda y tercera líneas del intermedio, se usan capas convolucionales de 1x1 para reducir el número de canales de entrada y reducir la complejidad de la modelo. . El último utiliza una capa de agrupación máxima de 3x3 seguida de una capa convolucional de 1x1 para cambiar la cantidad de canales. Se aplica el relleno adecuado a las 4 líneas para garantizar que la altura y el ancho de la entrada y la salida sean coherentes.

Red residual (ResNet)

[Falló la transferencia de la imagen del enlace externo, el sitio de origen puede tener un mecanismo anti-leeching, se recomienda guardar la imagen y cargarla directamente (img-XmZToNSs-1649515875246)(https://d2l.ai/_images/resnet-block .svg)]

  • Bloque residual: en términos generales, la entrada a la función de activación es el resultado de salida del cálculo de la red neuronal capa por capa, pero debido a la continua profundización de la red, es probable que ocurra inestabilidad de gradiente (explosión de gradiente, desaparición de gradiente). . A medida que la red se profundiza gradualmente, el error no será cada vez más pequeño. El propósito del bloque residual es resolver la inestabilidad del gradiente. Hace que el resultado de salida necesite hacer referencia al resultado de entrada a través de una conexión de salto.

  • 残差块原理:un [ l + 2 ] = gramo ( z [ l + 2 ] + un [ l ] ) = gramo ( w [ l + 2 ] un [ l + 1 ] + segundo [ l + 2 ] un [ l ] ) a^{[l+2]}=g(z^{[l+2]}+a^{[l]})=g(w^{[l+2]}a^{[l +1]} + b^{[l+2]}a^{[l]})a[ l + 2 ]=gramo ( z[ l + 2 ]+a[ l ] )=g ( w[ l + 2 ] un[ l + 1 ]+b[ l + 2 ] un[ l ] )no consideramos b ahora[ l + 2 ] b^{[l+2]}b[ l + 2 ] , cuando el gradiente desaparece,w [ l + 2 ] = 0 w^{[l+2]}=0w[ l + 2 ]=0 , 此时a [ l + 2 ] = g ( a [ l ] ) a^{[l+2]}=g(a^{[l]})a[ l + 2 ]=g ( un[ l ] ), que es equivalente a generar la salida de la primera capa directamente a través de Relu. No habrá impacto negativo por desaparición de gradiente.

Red densamente conectada (DenseNet)

Estructura del modelo : capa densa + capa de transición

  • Capa densa: DenseNet y ResNet son muy similares, la diferencia es que DenseNet no agrega directamente la salida del módulo anterior a la salida del módulo como ResNet, sino que se superpone directamente en el canal.
  • Capa de transición: para evitar que la cantidad de canales se superponga y genere una complejidad excesiva del modelo, la capa de transición reduce la cantidad de canales utilizando una capa convolucional de 1x1 y utiliza una capa de agrupación promedio con un paso de 2 para reducir a la mitad el alto y ancho para reducir aún más la complejidad.

Supongo que te gusta

Origin blog.csdn.net/Kevin_Carpricron/article/details/124070006
Recomendado
Clasificación