El documento de FCN señala las redes totalmente convolucionales para la segmentación semántica

1. Información relacionada con el papel

Hora: 2014
Tema: Redes totalmente convolucionales para la segmentación semántica
Dirección del documento: HTTPS: //arxiv.org/abs/1411.4038
código: https://github.com/shelhamer/fcn.berkeleyvision.org
Autor: Jonathan Long, etc.

2. Detalles del papel

Antecedentes e introducción

La poderosa estructura del modelo de CNN puede aprender características jerárquicas.
Entre ellos, la capa convolucional poco profunda tiene un campo receptivo más pequeño y puede aprender información local más fuerte.
La capa convolucional profunda tiene un campo receptivo más grande, puede aprender información semántica rica, es más abstracta, pero no es sensible a cierta información de ubicación.

Después de que la CNN tradicional ha pasado por una serie de capas convolucionales y capas agrupadas, el tamaño de su mapa de características es mucho más pequeño y el resultado final es información muy abstracta. Estas características abstractas pueden lograr un buen rendimiento cuando se utilizan en la clasificación de imágenes, porque la clasificación de imágenes es en cuanto a fotografías, pero cuando queremos lograr una segmentación semántica de ubicación más precisa (en píxeles), solo no se pueden lograr características semánticas abstractas.
Con este fin, el autor de este artículo propone construir una red convolucional completa, que puede ingresar imágenes de cualquier tamaño y generar la salida del tamaño correspondiente, y puede ser un entrenamiento de extremo a extremo, punto a punto y inferencia eficiente. La red fusiona la información semántica en la capa convolucional profunda con la información espacial en la capa convolucional poco profunda para obtener un resultado de segmentación detallado y preciso.

Arquitectura FCN

Inserte la descripción de la imagen aquí
La tecnología utilizada:

1. Convolución:

La red utilizada para la clasificación generalmente se conecta a la capa completamente conectada al final, que comprime la matriz bidimensional original (imagen) en unidimensional, perdiendo así la información espacial, y finalmente se entrena para generar un escalar, que es nuestra clasificación. etiqueta.

La salida de la segmentación semántica de la imagen debe ser un mapa de segmentación, independientemente del tamaño, pero al menos bidimensional. Por lo tanto, descartamos la capa completamente conectada y la reemplazamos con una capa convolucional, que se llama convolución.
Inserte la descripción de la imagen aquí

Como se muestra en la figura anterior, el primero está en la red de clasificación tradicional. Al final de la convolución, se agrega la conexión completa y finalmente se emite un vector unidimensional. Cada valor en el vector corresponde a cada categoría de la clase. La siguiente figura es después de la convolución, se elimina la conexión completa y la capa convolucional se usa para mantener la información espacial original, y esto resuelve el requisito de un tamaño de entrada fijo para la conexión completa, de modo que el tamaño de salida de la red puede ser arbitrario .

2. Sobremuestreo

El muestreo superior se puede dividir en dos tipos:
Primero, operación de cambio de tamaño, es decir, interpolación lineal en el procesamiento de imágenes tradicional.
2. Operación de deconvolución, también llamada deconvolución (Deconvolution) o transpuesta de convolución (conv_transpose)
El segundo método es el que se usa en el FCN, como se muestra en la figura anterior para generar el mapa de calor.

La convolución transpuesta es opuesta a la convolución en la propagación hacia adelante y hacia atrás de la estructura de la red neuronal.
Inserte la descripción de la imagen aquí

Más diagramas de convolución y deconvolución
Aunque la capa de convolución transpuesta es la misma que la capa de convolución, también puede entrenar parámetros, pero en el proceso del experimento real, el autor descubrió que hacer que la capa de convolución transpuesta se pueda aprender no aporta rendimiento. la capa convolucional transpuesta en el experimento se establece en cero

3. Omitir arquitectura

Inserte la descripción de la imagen aquí
Como se muestra en la figura, la salida eventualmente se convertirá en la misma dimensión que la entrada a través del muestreo superior y se obtendrán varias salidas.

  • Para los FCN-32, realice directamente un upsampling 32x en la función pool5 para obtener 32x upsampled feature, y luego realice una predicción softmax en cada punto de 32x upsampling feature para obtener una predicción de 32x upsampled feature (es decir, mapa de segmentación).
  • Para los FCN-16, primero realice 2x upsampling en la característica pool5 para obtener 2x upsampled feature, luego agregue la característica pool4 y 2x upsampling punto por punto, y luego realice un upsampling 16 veces en la característica agregada, y predicción softmax para obtener una predicción de características upsampled 16x .
  • Para FCN-8, primero realice la adición punto por punto de las características de pool4 + 2x upsampled, y luego realice la adición punto por punto de pool3 + 2x upsampled, es decir, realice más fusiones de características. El proceso específico es similar al de 16 y no se repetirá.
    Los resultados de salida del muestreo ascendente largo no síncrono anterior son los siguientes: Se
    Inserte la descripción de la imagen aquí
    puede ver que los FCN-8 tienen el mejor efecto.

Indicadores de evaluación de la segmentación semántica:

Intersection over union (IU) es la intersección de regiones. Sea n ij el número de píxeles de la clase i que se prevé que pertenezcan a la j-ésima clase, en la que hay n cl clases diferentes, que Inserte la descripción de la imagen aquí
representan el número total de la clase i. Luego obtenemos el siguiente método de cálculo:
Inserte la descripción de la imagen aquí

  • La precisión de los píxeles es la clasificación correcta de todos los píxeles.
  • La precisión promedio es la precisión de píxeles dividida por el número de clases.
  • UI promedio: UI se refiere a la proporción de píxeles de un cierto tipo que son realmente ese tipo de píxel, y la UI promedio es el promedio de todos los tipos de UI.
  • Peso de frecuencia UI: es multiplicar las UI de cada clase por un peso a sumar, y este peso es la proporción de píxeles de esa clase a todos los píxeles.

para resumir:

Ideas importantes de segmentación semántica:
  • Submuestreo + Submuestreo: Convlution + Deconvlution / Redimensionar
  • Fusión de características de múltiples escalas: adición de características punto por punto / empalme de dimensión de canal de característica
  • Obtenga el mapa de segmentos a nivel de píxel: juzgue la categoría de cada píxel
Dos métodos de fusión de características:

Agregue el canal durante la fusión, y la dimensión espacial debería ser la misma. Como el método de conexión estrecha de DenseNet.
Al fusionar, se agrega cada punto y el número de canales debe ser el mismo. Como el método de fusión de este artículo y el atajo de ResNet.

Articulo de referencia:

https://zhuanlan.zhihu.com/p/22976342
https://zhuanlan.zhihu.com/p/31428783

Supongo que te gusta

Origin blog.csdn.net/yanghao201607030101/article/details/110012082
Recomendado
Clasificación