[Visión por computadora | CNN] Colección de introducción a algoritmos comunes para bloques de modelos de imágenes (2)

一、Bloque ShuffleNet

El bloque ShuffleNet es un bloque de modelo de imagen que aprovecha las operaciones de mezcla de canales junto con convoluciones profundas para permitir un diseño arquitectónico eficiente. Se propone como parte de la arquitectura ShuffleNet. El punto de partida es la unidad de bloque residual en ResNets, que luego se modifica mediante operaciones de convolución de grupo puntual y barajado de canales.

Insertar descripción de la imagen aquí

二、Pirámide espacial eficiente

La pirámide espacial eficiente (ESP) es una pepita de modelo de imagen basada en el principio de descomposición, que descompone una convolución estándar en dos pasos: (1) convolución puntual y (2) convolución dilatada de la pirámide espacial. Las convoluciones puntuales ayudan a reducir el esfuerzo computacional, mientras que la pirámide espacial de convoluciones dilatadas vuelve a muestrear mapas de características para aprender representaciones de un gran campo receptivo efectivo. Esto mejora la eficiencia en comparación con otros módulos de imágenes, como el módulo ResNeXt y el módulo Inception.

Insertar descripción de la imagen aquí

三、Módulo de reloj de arena

El módulo de reloj de arena es un módulo de parche de imagen que se utiliza principalmente para tareas de estimación de pose. El diseño del reloj de arena está motivado por la necesidad de capturar información a todas las escalas. Si bien la evidencia local es crucial para identificar rasgos como rostros y manos, la estimación final de la postura requiere una comprensión coherente de todo el cuerpo. La orientación de una persona, la disposición de las extremidades y la relación de las articulaciones adyacentes se encuentran entre las muchas señales que se reconocen mejor en diferentes escalas de una imagen. Hourglass es un diseño simple y minimalista capaz de capturar todas estas características y combinarlas para generar predicciones a nivel de píxeles.

La red debe tener algún mecanismo para procesar e integrar características de manera eficiente en todas las escalas. Hourglass utiliza una única tubería con capas de salto para preservar la información espacial en cada resolución. La red alcanza una resolución mínima de 4x4 píxeles, lo que permite la aplicación de filtros espaciales más pequeños para comparar características en todo el espacio de la imagen.

La configuración del reloj de arena es la siguiente: las capas convolucionales y de agrupación máxima se utilizan para procesar características a muy baja resolución. En cada paso de agrupación máxima, la red se bifurca y aplica más convoluciones en la resolución original previa a la agrupación. Después de alcanzar la resolución más baja, la red comienza a realizar un muestreo ascendente de arriba hacia abajo de la secuencia y la combinación de características en todas las escalas. Para agrupar información de dos resoluciones adyacentes, realizamos un muestreo ascendente del vecino más cercano en la resolución más baja y luego realizamos una suma por elementos de los dos conjuntos de características. La topología de un reloj de arena es simétrica, por lo que por cada capa que desciende, hay una capa correspondiente que sube.

Una vez alcanzada la resolución de salida de la red, se aplican dos rondas consecutivas de convoluciones 1x1 para producir las predicciones finales de la red. La salida de la red es un conjunto de mapas de calor, donde para un mapa de calor determinado, la red predice la probabilidad de que haya una unión presente en cada píxel.

Insertar descripción de la imagen aquí

四、Bloque residual SRGAN

SRGAN Residual Block es el bloque residual utilizado en el generador SRGAN para superresolución de imágenes. Es similar al bloque residual estándar, aunque utiliza la función de activación PReLU para ayudar en el entrenamiento (evitando gradientes escasos durante el entrenamiento GAN).

Insertar descripción de la imagen aquí

5. Reducción-A

Reducción-A es un bloque de modelo de imagen utilizado en la arquitectura Inception-v4.

Insertar descripción de la imagen aquí

6. Módulo fantasma

Los módulos fantasma son parches de imágenes para redes neuronales convolucionales diseñados para generar más funciones utilizando menos parámetros. Específicamente, las capas convolucionales ordinarias en redes neuronales profundas se dividen en dos partes. La primera parte involucra convoluciones ordinarias, pero su número total está controlado. Dados los mapas de características intrínsecas de la primera parte, se aplica una serie de operaciones lineales simples para generar más mapas de características.

Insertar descripción de la imagen aquí
Insertar descripción de la imagen aquí
Insertar descripción de la imagen aquí

七、Bloque inicial de ENet

El bloque inicial de ENet es el bloque de modelo de imagen utilizado en la arquitectura de segmentación semántica de ENet. Max Pooling se realiza utilizando ventanas de 2 × 2 que no se superponen y la convolución tiene 13 filtros, lo que da como resultado un total de 16 mapas de características después de la concatenación. Esto está inspirado en gran medida en el módulo Inception.

Insertar descripción de la imagen aquí

8. Cuello de botella de ENet

ENet Bottleneck es un nugget de modelo de imagen utilizado en la arquitectura de segmentación semántica de ENet. Cada bloque consta de tres capas convolucionales: proyección 1 × 1 reducida dimensionalmente, capa convolucional principal y expansión 1 × 1. Colocamos Batch Normalization y PReLU entre todas las convoluciones. Si el cuello de botella es una reducción de resolución, agregue una capa de agrupación máxima a la rama principal. Además, la primera proyección de 1 × 1 se reemplaza por una convolución de 2 × 2 con paso 2 en ambas dimensiones. Rellenamos con cero las activaciones para que coincidan con la cantidad de mapas de características.

Insertar descripción de la imagen aquí

九、ENet cuello de botella dilatado

ENet Dilated Bottleneck es un bloque de modelo de imagen utilizado en la arquitectura de segmentación semántica de ENet. Es lo mismo que el ENet Bottleneck normal, pero utiliza convoluciones dilatadas.

Insertar descripción de la imagen aquí

10. Bloque Res2Net

El bloque Res2Net es un bloque de modelo de imagen que construye conexiones jerárquicas similares a residuos dentro de un único bloque residual. Se propone como parte de la arquitectura Res2Net CNN.

Este bloque representa características de múltiples escalas a nivel granular y aumenta el rango del campo receptivo de cada capa de red. Este canal de filtro se reemplaza por un conjunto de bancos de filtros más pequeños, teniendo cada banco de filtros canales. Estos bancos de filtros más pequeños están conectados de forma jerárquica similar a un residuo para aumentar el número de escalas que pueden representar las características de salida. Específicamente, dividimos los mapas de características de entrada en varios grupos. Un conjunto de filtros primero extrae características de un conjunto de mapas de características de entrada. Las características de salida del conjunto anterior se envían al siguiente conjunto de filtros junto con otro conjunto de mapas de características de entrada.

Este proceso se repite varias veces hasta que se hayan procesado todos los mapas de características de entrada. Finalmente, los mapas de características de todos los grupos se concatenan y se envían a otro conjunto de filtros para fusionar completamente la información. Con cualquier ruta posible desde una característica de entrada a una característica de salida, cada vez que pasa por un filtro, se producen muchas escalas de características equivalentes debido a efectos combinatorios.

Una forma de pensar en estos bloques es que exponen nuevas dimensiones y escalas, además de las dimensiones existentes de profundidad, ancho y cardinalidad.

Insertar descripción de la imagen aquí

11. Cuello de botella fantasma

Ghost Bottleneck es un bloque de conexión de salto, similar al bloque residual básico en ResNet, que integra múltiples capas convolucionales y accesos directos, pero en su lugar apila módulos Ghost (dos módulos Ghost apilados). Se propone como parte de la arquitectura GhostNet CNN.

El primer módulo Ghost actúa como una capa de expansión, aumentando el número de canales. La relación entre el número de canales de salida y el número de canales de entrada se denomina relación de expansión. El segundo módulo Ghost reduce la cantidad de canales para que coincidan con las rutas de acceso directo. Luego conecte el acceso directo entre la entrada y la salida de los dos módulos Ghost. La normalización por lotes (BN) y la no linealidad de ReLU se aplican después de cada capa, pero ReLU no se usa después del segundo módulo Ghost como lo recomienda MobileNetV2. El cuello de botella de Ghost anterior es para el caso de zancada=1. Para el caso de stride=2, el acceso directo se implementa mediante una capa de reducción de resolución y se inserta una convolución de profundidad de stride=2 entre los dos módulos Ghost. De hecho, la convolución principal en el módulo Ghost aquí es la convolución puntual para mejorar su eficiencia.

Insertar descripción de la imagen aquí

12. Bloque ShuffleNet V2

huffleNet V2 Block es un bloque de modelo de imagen utilizado en la arquitectura ShuffleNet V2, donde la velocidad es la métrica optimizada (en lugar de una métrica indirecta como los FLOP). Utiliza un operador simple llamado división de canales. Al comienzo de cada unidad, el
canal de funciones de entrada se divide en dos ramas, respectivamente. Después de G3, una rama permanece como identidad. La otra rama consta de tres convoluciones con los mismos canales de entrada y salida para satisfacer G1. Se diferencian del ShuffleNet original en que las convoluciones ya no están agrupadas. Esto se debe en parte a seguir a G2 y en parte a que la operación de división ya produce dos grupos. Después de la convolución, las dos ramas están conectadas. Por tanto, el número de canales permanece sin cambios (G1). Luego se utiliza la misma operación de "mezcla de canales" que en ShuffleNet para implementar la comunicación de información entre las dos ramas.

La motivación detrás de la división de canales es que las arquitecturas alternativas que utilizan convoluciones de grupos puntuales y estructuras de cuello de botella dan como resultado mayores costos de acceso a la memoria. Además, una mayor fragmentación de la red con convoluciones de grupo reduce el paralelismo (menos amigable con la GPU) y las operaciones de suma de elementos tienen FLOP más bajos pero costos de acceso a la memoria más altos. La división de canales es una alternativa donde podemos mantener una gran cantidad de canales de igual ancho (lo que minimiza los costos de acceso a la memoria) sin usar convoluciones densas o demasiados grupos.

Insertar descripción de la imagen aquí

Trece, atención dividida

Insertar descripción de la imagen aquí
Insertar descripción de la imagen aquí
Insertar descripción de la imagen aquí

14. Núcleo selectivo

La unidad Selective Kernel es un bloque de cuello de botella compuesto por una serie de convoluciones 1 × 1, convoluciones SK y convoluciones 1 × 1. Se propone como parte de la arquitectura SKNet CNN. En general, todas las convoluciones del kernel grandes en el bloque de cuello de botella original en ResNeXt se reemplazan por las convoluciones SK propuestas, lo que permite a la red elegir un tamaño de campo receptivo apropiado de manera adaptativa.

Insertar descripción de la imagen aquí
Insertar descripción de la imagen aquí

15. Bloque DPN

Los bloques de red de doble ruta son bloques de modelos de imágenes utilizados en redes neuronales convolucionales. La idea de este módulo es permitir compartir funcionalidad común manteniendo la flexibilidad para explorar nuevas funcionalidades a través de una arquitectura de ruta dual. En este sentido, combina las ventajas de ResNets y DenseNets. Se propone como parte de la arquitectura DPN CNN.

Formulamos dicha arquitectura de doble ruta de la siguiente manera:

Insertar descripción de la imagen aquí
Insertar descripción de la imagen aquí

Supongo que te gusta

Origin blog.csdn.net/wzk4869/article/details/132911433
Recomendado
Clasificación