Explicación detallada de la red unet

Sueños

  • Referencia: U-Net: redes convolucionales para
    la segmentación de imágenes biomédicas
  • Título: Olaf Ronneberger, Philipp Fischer y Thomas Brox

¿Qué es el modelo Unet?

Unet es un excelente modelo de segmentación semántica, y su principal proceso de ejecución es similar a otros modelos de segmentación semántica. La diferencia con CNN es que CNN es una clasificación a nivel de imagen, mientras que unet es una clasificación a nivel de píxel, y su salida es la categoría de cada píxel.

Función de pérdida de red

Parte principal: función de activación softmax + función de pérdida de entropía cruzada ponderada + función de cálculo de peso

función de activación softmax

La función de activación softmax superpone de forma no lineal las características de entrada y los pesos de cada píxel. Después de que softmax procesa cada píxel, la cantidad de valores de salida es igual a la cantidad de categorías en la etiqueta. Softmax transforma el valor de salida de cada píxel en una distribución de probabilidad cuyo valor es positivo y suma 1, de manera de obtener la confianza de cada clase en cada píxel.

Función de pérdida de entropía cruzada

Función de pérdida de entropía cruzada: una función de medición utilizada para medir la diferencia entre dos distribuciones de probabilidad

inserte la descripción de la imagen aquí

En la fórmula anterior, yc representa la verdadera distribución de la muestra, su valor es 0 o 1 y Pc representa la distribución prevista de la muestra.

Este documento utiliza una función de pérdida de entropía cruzada con pesos límite :

p es el valor de salida después del procesamiento softmax;

l : Ω → {1, . . . , K}, es la etiqueta verdadera de cada píxel;

pl(x)(x): El punto x es el valor de activación de la salida de la categoría dada por la etiqueta correspondiente.

w : Ω → R es el peso agregado a cada píxel durante el entrenamiento.

función de cálculo de peso

La fórmula w(x) se refiere principalmente a la fórmula de distribución normal.
wc(x) se calcula previamente para cada segmentación real del terreno para compensar las diferentes frecuencias de píxeles de cada clase en el conjunto de datos de entrenamiento; d1 es
la distancia al límite de celda más cercano
d2 es la distancia al segundo límite de celda más cercano

Cuando tanto d1 como d2 son iguales a 0, la última parte tiene un valor máximo, y cuanto menores son d1 y d2, mayor es la última parte, es decir, mayor es el peso total. Cuando d1 y d2 son más pequeños, significa que cuanto más cerca del límite de la celda, mayor es el peso del límite de la celda, lo que puede obligar a la red a aprender.

El papel del peso: el peso puede ajustar la importancia de un área determinada en la imagen. En el proceso de cálculo de la pérdida, el peso de la pérdida se agrega a la parte del borde donde se superponen las dos celdas, para que la red preste más atención. a este tipo de información de borde superpuesta.

Resumen: primero use la operación softmax para obtener la confianza de cada clase y luego use la entropía cruzada para medir la brecha entre la predicción y la etiqueta.

Estructura principal de Unet

inserte la descripción de la imagen aquí

Unet se puede dividir en tres partes, como se muestra en la figura anterior:

La primera parte es la parte de extracción de características de la columna vertebral.Podemos usar la parte de la columna vertebral para obtener capas de características una tras otra.La parte de extracción de características de la columna vertebral de Unet es similar a VGG, que es una pila de convolución y agrupación máxima. Usando la parte de extracción de características de la columna vertebral, podemos obtener cinco capas de características efectivas preliminares.En el segundo paso, usaremos estas cinco capas de características efectivas para la fusión de características.

La segunda parte es fortalecer la parte de extracción de características.Podemos usar las cinco capas de características efectivas preliminares obtenidas en la parte de la columna vertebral para realizar un muestreo superior y realizar la fusión de características para obtener una capa de características efectiva final que integre todas las características.

La tercera parte es la parte de predicción. Usaremos la capa de características efectiva final para clasificar cada punto de característica, lo que equivale a clasificar cada punto de píxel.

Red troncal de extracción de características

La parte principal de extracción de características de Unet se compone de capa de convolución + capa de agrupación máxima, y ​​la estructura general es similar a VGG.

inserte la descripción de la imagen aquíCuando el tamaño de la imagen de entrada es 512x512x3, el método de ejecución específico es el siguiente:
1. conv1: convolucione los 64 canales de [3,3] dos veces para obtener una capa de características efectiva preliminar de [512,512,64] y luego realice 2X2 Max agrupación para obtener una capa de características [256,256,64].
2. conv2: realice dos convoluciones de 128 canales de [3,3] para obtener una capa de características efectiva preliminar de [256,256,128] y luego realice una agrupación máxima de 2X2 para obtener una capa de características de [128,128,128].
3. conv3: realice tres convoluciones de 256 canales de [3,3] para obtener una capa de características efectiva preliminar de [128,128,256] y luego realice una agrupación máxima de 2X2 para obtener una capa de características de [64,64,256].
4. conv4: realice tres convoluciones de [3,3] con 512 canales para obtener una capa de características efectiva preliminar de [64,64,512] y luego realice una agrupación máxima de 2X2 para obtener una capa de características [32,32,512].
5. conv5: Realice tres convoluciones de 512 canales de [3,3] para obtener una capa de características efectiva preliminar de [32,32,512].
inserte la descripción de la imagen aquí

¿Por qué 572x572, no 512x512?

imagen

Debido a que el bloque de imagen en el borde de la imagen no tiene píxeles circundantes, la convolución perderá la información en el borde de la imagen, por lo que la expansión del espejo se usa para los píxeles circundantes.

Estructura de extracción de características mejorada

Usando el primer paso, podemos obtener cinco capas de características efectivas preliminares . Al fortalecer la red de extracción de características, usaremos estas cinco capas de características efectivas preliminares para la fusión de características . La forma de fusión de características es aumentar la muestra de la capa de características y realizar la pila .

Para facilitar la construcción de la red y una mayor versatilidad, nuestro Unet es ligeramente diferente de la estructura de Unet en la imagen de arriba. Al aumentar el muestreo, realizamos directamente dos aumentos de muestreo y luego realizamos la fusión de características . La capa de características final y la altura del imagen de entrada mismo ancho.

inserte la descripción de la imagen aquí

Usar funciones para obtener predicciones

El proceso de uso de características para obtener resultados de predicción es:
usar un núcleo de convolución 1x1 para el ajuste de canales y ajustar la cantidad de canales en la capa de características final a num_classes.

inserte la descripción de la imagen aquí

reproducción de código

Conjunto de datos: ISBI

Entrenamiento modelo:

inserte la descripción de la imagen aquí

Equipo de prueba:
inserte la descripción de la imagen aquí
inserte la descripción de la imagen aquí

Supongo que te gusta

Origin blog.csdn.net/qq_58529413/article/details/125704059
Recomendado
Clasificación