[notas cv] segmentación de imágenes

Tarea de segmentación de imágenes, cuyo propósito es lograr una clasificación a nivel de píxel, el resultado de salida es una matriz bidimensional con el mismo tamaño que la imagen de entrada, y el valor en la matriz corresponde a la categoría a la que pertenece el píxel.

1. Información general

1.1 Tipo de tarea

 

  • Segmentación semántica: la categoría a la que pertenece cada píxel (incluidas las categorías de cosas y objetos), y es indistinguible entre instancias adyacentes de la misma categoría

  • Segmentación de instancias: cada categoría de objeto y máscara (solo categoría de objeto)

  • Segmentación panorámica: se puede distinguir la identificación de la instancia de la categoría y la categoría del objeto a la que pertenece cada píxel, y las instancias adyacentes de la misma categoría

1.2 Indicadores de evaluación

  • mIOU: el promedio de la relación de intersección de segmentación para cada categoría

  • mAcc: el promedio de precisión de clasificación

 

2 Modelo de Segmentación Semántica

2.1 FCN

FCN, nombre completo redes totalmente convolucionales

 

La salida de la segmentación es una matriz bidimensional del mismo tamaño que la imagen de entrada, y los valores de la matriz corresponden a la clase a la que pertenece el píxel. En FCN, se usa 1x1 conv en lugar de la capa fc para ajustar la dimensión de la característica de salida a la dimensión requerida.

En el proceso de segmentación, primero se reduce la muestra de la imagen para extraer las características de la imagen. En este momento, el tamaño del mapa de características se reduce continuamente; para generar el mapa de características con el mismo tamaño que la imagen original, se realiza un muestreo ascendente. se requiere. En general, hay tres formas de sobremuestreo: sobremuestreo, Transpose Conv, Un-pooling

  • muestreo ascendente: interpolación bilineal

 

  • Transposición Conv, deconvolución

 

 

  • Desagrupar

 

2.1.1 Estructura del modelo

Estrategia de muestreo superior: use un mapa de características de varios tamaños para el muestreo superior y luego agregue elementos para la fusión de características

 

2.1.2 Ventajas y desventajas

  • ventaja

    • Cualquier tamaño de entrada

    • Combinar información superficial

  • defecto

    • El resultado de la segmentación no es lo suficientemente fino (la información superficial no se considera completamente)

    • No considera efectivamente la información contextual (pequeño campo receptivo)

2.2 Red en U

2.2.1 Estructura del modelo

U-Net adopta la estructura en forma de U de codificador-decodificador. Durante el proceso de upsampling, la fusión de características es en forma de Concatenar; si el tamaño no coincide, se utiliza la operación de recorte para obtener el mapa de características del tamaño correspondiente.

 

 

2.2.2 Ventajas y desventajas

  • Ventajas: cada vez que se realiza un muestreo superior, se concatena la capa superior del mapa de características, lo que hace un uso completo de la información de la capa superficial y ayuda a mejorar la precisión de los bordes.

  • Desventajas: gran uso de memoria

2.3 Red PSP

PSP-Net (Pyramid Scene Parsing Network), sobre la base de FCN, para considerar mejor la información global, presenta módulos de convolución de agujeros y agrupación de pirámide espacial para mejorar el rendimiento del modelo.

2.3.1 Estructura del modelo

  • todo el cuadro

 

  • columna vertebral

    ResNet dilatado, introduce la convolución del agujero en el resnet original, aumenta el campo receptivo

 

Convolución atrosa : se introduce un hiperparámetro llamado "tasa de dilatación", que define el espaciado de los valores cuando el núcleo de convolución procesa los datos.

1. Aumentar el campo receptivo

2. No reduzcas la resolución (stride=1, padding)

3. No introduce parámetros y cálculos adicionales

 

  • Módulo Spatial Pyramid Pooling: al realizar operaciones de agrupación de diferentes escalas en el mapa de características de entrada, la información de características de múltiples escalas se fusiona y se concatena con el mapa de características original, que combina mejor las características locales y las características globales. El módulo incluye principalmente las siguientes operaciones:

    • Piscina adaptable

    • Conversión 1X1

    • Sobremuestreo

    • concat

 

2.4 Serie DeepLab

La serie DeepLab es una serie de algoritmos de segmentación semántica propuestos por el equipo de Google.

 

  • Laboratorio profundo V1

    • todo el cuadro

       

       

  • DeepLab v2

    • todo el cuadro

     

     

    • ASPP

     

     

El propósito del módulo ASPP es similar al del módulo SPP en PSP-Net, que integra información de características de diferentes escalas y considera exhaustivamente las características locales y las características globales. La diferencia es que ASPP usa coeficientes de dilatación de convolución dilatada + operaciones de adición de elementos, y SPP usa operaciones de agrupación + concatenación de diferentes tamaños.

  • Laboratorio profundo V3

    • todo el cuadro

     

    • módulo ASPP actualizado

      El módulo aspp actualizado ha realizado algunos ajustes en comparación con aspp para integrar mejor la información de múltiples escalas.

     

    • red múltiple

      La estrategia Multi-Grid de DeepLab v3 se refiere a la idea de HDC (convolución híbrida dilatada) Su idea es utilizar continuamente múltiples convoluciones dilatadas con diferentes tasas de expansión en un bloque. La propuesta de HDC es resolver el problema de reticulación que puede producir la convolución de huecos. Esto se debe a que cuando la tasa de dilatación utilizada por la convolución dilatada en la capa superior aumenta, su muestreo de la entrada será muy escaso, lo que provocará la pérdida de cierta información local. Además, se perderán algunas correlaciones locales, pero se capturará información semánticamente irrelevante a larga distancia.

      El motivo de Gridding es que las circunvoluciones dilatadas consecutivas utilizan la misma tasa de dilatación. En la Figura (a), se usan continuamente tres circunvoluciones dilatadas, por lo que el impacto en los resultados de la clasificación del punto central proviene de los puntos de píxeles continuos circundantes. El principio de HDC es usar diferentes tasas de expansión para circunvoluciones dilatadas continuas. Las tasas de expansión utilizadas en la Figura (b) son secuenciales, entonces el área que afecta la categoría del punto central es un área continua, por lo que es más fácil producir una segmentación continua. Efecto.

       

      La estructura original de la red residual se copió directamente del Bloque-1 al Bloque-4, y luego el bloque4 se copió tres veces para obtener el bloque5-7, que usó diferentes tasas de expansión para aumentar el campo receptivo y evitar problemas de Gridding.

       

  • DeepLab V3+

    La arquitectura general del modelo DeepLabv3+ se muestra en la siguiente figura. El cuerpo principal de su codificador es una red troncal con convolución atrosa, y luego se conecta al módulo Atrous Spatial Pyramid Pooling (Atrous Spatial Pyramid Pooling, ASPP) con convolución atrous. Información de escala: en comparación con DeepLabv3, v3+ presenta el módulo Decoder, que integra aún más información superficial e información profunda para mejorar la precisión de los límites de segmentación.

    • todo el cuadro

       

    • columna vertebral: Xcepción dilatada

    • descifrador

      Para DeepLabv3, el output_stride del mapa de características obtenido por el módulo ASPP es 8 o 16, que se interpola directamente de forma bilineal al tamaño de la imagen original después de pasar por la capa de clasificación 1 x 1. Este es un método de decodificación muy violento, especialmente output_stride=16. Sin embargo, esto no conduce a obtener mejores resultados de segmentación, por lo que el modelo v3+ utiliza la estructura EncoderDecoder como referencia e introduce un nuevo módulo Decoder. Primero, interpole bilinealmente las características obtenidas por el codificador para obtener características 4x, y luego concatene las características de bajo nivel del tamaño correspondiente en el codificador, como la capa Conv2 en ResNet. Dado que la cantidad de características obtenidas por el codificador es solo 256, las dimensiones de las características de bajo nivel pueden ser muy altas. Para evitar que las características de alto nivel obtenidas por el codificador se debiliten, primero use la convolución 1x1 para reducir la dimensionalidad de las características de bajo nivel (la dimensión de salida en el papel es 48). Después de concatenar las dos características, se utiliza la convolución 3x3 para fusionar aún más las características y, finalmente, se realiza una interpolación bilineal para obtener una predicción de segmentación del mismo tamaño que la imagen original.

2.5 Serie HRNet

HRNet es una nueva red neuronal propuesta por Microsoft Research Asia en 2019. A diferencia de la red neuronal convolucional anterior, la red aún puede mantener una alta resolución en la capa profunda de la red, por lo que la información semántica prevista es más precisa y la espacial la información es más precisa también es más precisa.

La arquitectura de red segmentada descrita anteriormente incluye principalmente dos partes: Codificador y Decodificador. La parte del codificador, principalmente a través de la compresión de resolución (downsample--downsampling), realiza la agregación semántica, obtiene ricas características semánticas y es adecuada para la clasificación, pero pierde mucha información espacial en el proceso continuo de downsampling, que no conduce a la segmentación. Tareas sensibles a la posición: para mejorar la precisión de la segmentación, la parte del decodificador aumenta gradualmente la resolución y finalmente obtiene un mapa de características de alta resolución. Estas características de alta resolución son más amigables para las tareas sensibles a la posición y pueden retener más espacio información. Sin embargo, en el proceso de muestreo descendente y luego de muestreo ascendente, la resolución del mapa de características disminuye primero y luego aumenta, y la información espacial aún se pierde. En base a esto, HRNet diseñó una red que mantiene mapas de características de alta resolución, de modo que se pueda obtener información de ubicación mejor y más precisa.
  • recuperar alta resolución (codificador-decodificador, 如PSP-Net, DeepLab)

 

  • mantener alta resolución (HRNet)

 

Métodos de fusión de mapas de características de diferentes resoluciones:

 

Diversificación de la estructura de la cabeza:

 

2.5.1 MEscalaOCR

MscaleOCRNet pertenece a la serie HRNet. En comparación con la estructura de la red HRNet, calcula el peso de la relación entre cada píxel y otros píxeles en la imagen en el resultado de la segmentación de HRNet, se superpone con las características originales para formar una red OCRNet y luego realiza la clasificación basado en OCRNet El entrenamiento multiescala de capas forma la MscaleOCRNet final.

2.6 serie de transformadores

2.6.1 Formador de segmentos

3 Modelo de segmentación de instancias/segmentación panorámica

 

4 Descripción general del rendimiento del modelo

 

Supongo que te gusta

Origin blog.csdn.net/j_river6666/article/details/125507098
Recomendado
Clasificación