UNet ++: una arquitectura U-Net anidada para la segmentación de imágenes médicas


Prefacio

El segundo artículo sobre segmentación de imágenes médicas que leí después de Unet se usa para registrar el aprendizaje. Gracias por algunas excelentes publicaciones de blog de los grandes que han leído


1. Traducción en papel

Resumen: En este artículo, mostramos una estructura de red UNet ++ nueva y más fuerte para la segmentación de imágenes médicas. Nuestra estructura es esencialmente una red de codificación-decodificación profundamente supervisada, la codificación y las subredes decodificadas están conectadas entre sí a través de una serie de redes anidadas caminos de lúpulo densos Esta conexión de salto rediseñada se utiliza principalmente para reducir la brecha semántica de los mapas de características en las subredes de codificación y decodificación. Cuando la semántica de los mapas de características de las redes de codificación y decodificación es similar, creemos que este optimizador puede resolver una tarea de aprendizaje más simple. Comparamos las derivadas UNet ++, UNet y UNet en múltiples tareas de segmentación de imágenes médicas. El efecto de predicción de la red: Segmentación tumoral de tomografía computarizada de baja dosis, segmentación del núcleo celular en el microscopio, segmentación hepática por tomografía computarizada abdominal y segmentación de pólipos de colon. Nuestro experimento muestra que UNet ++ con una estructura de supervisión profunda logra un IoU promedio de 3.9 y 3.4 puntos Respectivamente superado los derivados de U-Net y U-Net.

1. Introducción

  Los modelos de segmentación de imágenes más avanzados son variantes de la arquitectura de códec, como U-Net [9] y Fully Convolutional Network (FCN) [8]. Estas redes de códecs que se utilizan para la segmentación tienen una similitud clave: conexiones de salto, que mapean las características profundas, semánticas y de grano grueso de la subred del decodificador a las características superficiales, de bajo nivel y de grano fino de la subred del codificador. Mapeo combinado . Se ha demostrado que la conexión de salto restaura de manera efectiva los detalles finos del objeto de destino; incluso en un fondo complejo, puede generar una máscara de segmentación con detalles finos. La conexión de salto también es crucial para el éxito de los modelos de segmentación a nivel de instancia (como Mask-RCNN), que pueden segmentar objetos ocluidos. Se puede decir que la segmentación de imágenes alcanza un nivel satisfactorio de rendimiento en la segmentación de imágenes naturales, pero ¿cumplen estos modelos los estrictos requisitos de segmentación de las imágenes médicas?
  La segmentación de lesiones o anomalías en imágenes médicas requiere mayor precisión que en imágenes naturales. La máscara de segmentación precisa puede no ser crítica en imágenes naturales, pero incluso los errores de segmentación de bordes en imágenes médicas pueden conducir a una mala experiencia del usuario en entornos clínicos. Por ejemplo, las rebabas sutiles alrededor de los nódulos pueden indicar nódulos malignos; por lo tanto, excluirlos de la máscara de segmentación reducirá la credibilidad del modelo en la clínica. Además, una segmentación inexacta también puede conducir a cambios importantes en los diagnósticos generados por computadora. Por ejemplo, las mediciones erróneas del crecimiento de nódulos en estudios longitudinales pueden dar lugar a la asignación de categorías de RADS pulmonares incorrectas a los pacientes examinados. Por lo tanto, es necesario diseñar una arquitectura de segmentación de imágenes más eficaz para restaurar de forma eficaz los detalles finos de los objetos objetivo en las imágenes médicas.
  Con el fin de resolver la necesidad de una segmentación más precisa en imágenes médicas, proponemos una nueva arquitectura de segmentación UNET ++ basada en conexiones de salto densas y anidadas. El supuesto básico de nuestra arquitectura es que cuando los mapas de características de alta resolución de la red de codificadores se enriquecen gradualmente antes y se fusionan con los correspondientes mapas de características ricos en semántica en la red de decodificadores, el modelo puede capturar de manera más efectiva los detalles detallados de objetos de primer plano. Creemos que cuando los mapas de características de las redes de decodificadores y codificadores son semánticamente similares, la red se encargará de una tarea de aprendizaje más sencilla. Esto contrasta claramente con la conexión de salto común que se usa comúnmente en U-Net, que conecta directamente el mapa de características de alta resolución del codificador a la red del decodificador, logrando así la integración de mapas de características semánticamente diferentes. Según nuestros experimentos, la arquitectura propuesta es efectiva y produce ganancias de rendimiento significativas en U-Net y U-Net amplia.

2. Trabajo relacionado

  Long et al [8] propusieron FCN por primera vez, y en el mismo año (2015) Ronneberger et al. [9] propusieron UNet. Todos usan una idea clave: salto de conexión (operación diferente). En FCN, el mapa de características durante el muestreo superior utiliza el mapa de características de la codificación para realizar la suma de píxeles, mientras que U-Net realiza la concatenación de empalmes dimensionales y, entre cada paso de muestreo superior, agregue funciones de activación no lineal y de convolución. No importa qué tipo de conexión de salto, muestra que puede ayudar a restaurar la rica resolución espacial en la salida de la red, haciendo que el método de convolución completo sea adecuado para la segmentación semántica. Inspirándose en la arquitectura DenseNet [5], Li et al. [7] propusieron H-denseunet para la segmentación de hígado y tumores hepáticos. También inspirado, Drozdzalet al. [2] estudiaron y analizaron sistemáticamente la importancia de las conexiones de salto, e introdujeron conexiones de salto corto en la codificación. Aunque existen ligeras diferencias entre las arquitecturas anteriores, todas tienden a fusionar mapas de características semánticamente diferentes de las subredes del codificador y del decodificador. Según nuestra verificación experimental, este enfoque reduce el rendimiento de la segmentación.
  Otros dos trabajos relacionados recientemente son GridNet [3] y Mask-RCNN [4]. GridNet es una estructura de codificación-decodificación en la que los mapas de características están conectados en cuadrículas por líneas, formando varias estructuras de segmentación de clases. Sin embargo, GridNet carece de una capa de muestreo superior entre las conexiones de salto; por lo tanto, no puede representar UNet ++. Mask-RCNN puede ser el marco más importante para la detección, clasificación y segmentación de objetivos. Creemos que UNet ++ se puede implementar fácilmente como la arquitectura troncal en Mask-RCNN, simplemente reemplazando las conexiones de salto ingenuas con rutas de salto densamente anidadas. Debido al espacio limitado, no podemos incluir los resultados de Mask RCNN con UNET ++ como arquitectura troncal, sin embargo, los lectores que estén interesados ​​en ver más detalles pueden consultar la información complementaria.
Inserte la descripción de la imagen aquí

3 Estructura de red neuronal propuesta: UNet ++

  La figura 1a muestra una descripción general de UNet ++. Podemos ver que UNet ++ comienza con una subred de codificación o una red troncal que sigue a esta subred de decodificación. La diferencia entre UNet ++ y U-Net (en la figura 1a, la parte negra) es la ruta de salto rediseñada (verde y azul), que se utiliza para conectar las dos subredes y la parte de uso de supervisión profunda (rojo)

3.1 Vías de salto rediseñadas

  Esta ruta de salto rediseñada cambia la conectividad de las subredes de codificación y decodificación. En U-Net, la decodificación es obtener directamente el mapa de características en la codificación; sin embargo, en UNet ++, pasan a través de un bloque de convolución denso, este bloque El número de capas convolucionales depende del nivel de la "pirámide". Por ejemplo, la ruta de salto entre el nodo X0,0 y el nodo X1,3 se compone de un bloque de convolución denso con 3 capas de convolución, y cada capa de convolución conduce a una capa de conexión, y esta capa de conexión combina el mismo bloque denso La salida de la capa convolucional anterior se fusiona con la salida del correspondiente bloque de baja densidad muestreado. En esencia, el bloque de convolución denso acerca el nivel semántico del mapa de características del codificador al nivel semántico del mapa de características que espera en el decodificador. Se supone que cuando el mapa de características del codificador recibido y el mapa de características del decodificador correspondiente son semánticamente similares, el optimizador enfrentará un problema de optimización más fácil.
  A partir de la fórmula, la ruta de salto se expresa de la siguiente manera: sean xi, j la salida de los nodos Xi, ji se refiere a qué capa de submuestreo a lo largo de la dirección de codificación y j se refiere a la convolución del bloque denso a lo largo de la dirección del salto Capa de ruta. Este grupo de mapas de características está representado por xi, j, y el cálculo es el siguiente: La
Inserte la descripción de la imagen aquí
  función H (·) es una operación de convolución seguida de una función de activación. U (·) representa una capa de muestreo superior y [ ] representa una capa de conexión. Básicamente, el nodo con nivel j = 0 recibe solo una entrada de la capa anterior de codificación; el nodo con nivel j = 1 recibe dos entradas, ambas provienen de la subred de codificación y son dos capas consecutivas; la capa j > 1 El nodo recibe una entrada j + 1, la entrada j es la salida del nodo anterior j en la misma ruta de salto y la última entrada es la salida de la muestra ascendente de la ruta de salto inferior. Todos los mapas de características anteriores se acumulan y llegan al nodo correcto porque usamos un bloque de convolución denso a lo largo de cada ruta de salto. Fig.1b Al mostrar cómo el mapa de características pasa por la ruta de salto superior de UNet ++, es más clara la ecuación 1

3.2 Supervisión en profundidad

  Recomendamos utilizar supervisión profunda en UNet ++ [6] para permitir que el modelo se ejecute en dos modos: 1) Modo preciso, donde la salida se promedia de todas las ramas de segmentación; 2) Modelo rápido, donde el mapa de segmentación final solo selecciona la rama de segmentación Uno, esta elección determina el grado de poda del modelo y la ganancia de velocidad La Figura 1c muestra cómo la elección de ramas divididas en modo rápido conduce a arquitecturas de diferente complejidad.

  Debido a las rutas de salto anidadas, UNET ++ genera mapas de características de resolución completa {x0, j, j ∈ {1, 2, 3, 4} en múltiples niveles semánticos, que son una supervisión profunda aceptable. Agregamos la combinación de entropía cruzada binaria y el coeficiente de Dice como una función de pérdida a cada uno de los cuatro niveles semánticos anteriores, que se describen a continuación:
Inserte la descripción de la imagen aquí
donde Yˆb e Yb representan la probabilidad de predicción plana y las verdades del terreno plano de la bth imagen, y N representa el lote tamaño de procesamiento.
  En resumen, UNet ++ como se describe en la Figura 1a es diferente del U-Net original en tres aspectos: 1) Hay una capa convolucional (en verde) en la ruta de salto, que conecta la brecha semántica entre el codificador y los mapas de características del decodificador; 2) En Hay densas conexiones de salto en la ruta de salto (que se muestra en azul), lo que mejora el flujo del gradiente; 3) monitoreo de profundidad (que se muestra en la imagen), como se muestra en la sección 4, se puede realizar la poda y mejora del modelo, o En el peor de los casos, se puede obtener un rendimiento equivalente a utilizar solo una capa de pérdida.
Inserte la descripción de la imagen aquí

4 experimento

Conjunto de datos : como se muestra en la Tabla 1, utilizamos cuatro conjuntos de datos de imágenes médicas para la evaluación del modelo, que incluyen lesiones / órganos de diferentes modalidades de imágenes médicas. Para obtener más detalles sobre el conjunto de datos y el procesamiento previo de datos correspondiente, consulte el material complementario.
Modelo de referencia : a modo de comparación, utilizamos la U-Net original y la U-Net amplia. Elegimos U-Net porque es una referencia de rendimiento general para la segmentación de imágenes. También diseñamos una U-Net amplia con parámetros similares a los de nuestra arquitectura propuesta Esto es para asegurar que las ganancias de rendimiento generadas por nuestra arquitectura no se deben solo al aumento en el número de parámetros. La Tabla 2 detalla las arquitecturas U-Net y U-Net amplia.
Detalles de la implementación : monitoreamos el coeficiente de dados y la unión de intersección (IoU), y usamos un mecanismo de terminación anticipada en el conjunto de verificación. También usamos el optimizador Adam con una tasa de aprendizaje de 3e-4. Los detalles de la arquitectura de UNet y Wide U-Net se muestran en la Tabla 2. UNet ++ está construido a partir de la arquitectura U-Net original. Todas las capas convolucionales utilizan 3 × 3 (o 3 × 3 k núcleos para la segmentación tridimensional de nódulos pulmonares) a lo largo de la ruta de salto (Xi, j), donde k = 32 × 2i. Para lograr una monitorización en profundidad, se adjunta una capa convolucional 1 × 1 y una función de activación sigmoidea a cada nodo objetivo. Como resultado, UNet ++ genera cuatro mapas de segmentación que, dada una imagen de entrada, se promediarán aún más para generar el mapa de segmentación final. Para obtener más detalles, visite github.com/Nested-UNet.
resultado: La Tabla 3 compara los parámetros numéricos y la precisión de segmentación de U-Net, U-Net ancho y UNet ++ en nódulos pulmonares, pólipos de colon, hígado y núcleos. Como puede verse en la figura, el rendimiento de U-Net amplio siempre ha sido mejor que el de U-Net, excepto en el hígado, el rendimiento de estas dos arquitecturas es relativamente cercano. Esta mejora se debe a la gran cantidad de parámetros en amplia U-Net. UNet ++ ha logrado mejoras de rendimiento significativas en UNet y en U-Net amplia sin una supervisión en profundidad, y IoU ha mejorado en 2,8 y 3,3 puntos en promedio. UNet ++ con supervisión profunda es 0,6 puntos mejor que UNet ++ sin supervisión profunda. En concreto, el uso de la supervisión profunda puede mejorar significativamente la segmentación de nódulos hepáticos y pulmonares, pero esta mejora desaparece en la segmentación de núcleos y pólipos de colon. Esto se debe a que los pólipos y el hígado aparecen a diferentes escalas en los fotogramas de vídeo y los cortes de TC. Por lo tanto, un método de múltiples escalas que utilice todas las ramas de segmentación (supervisión profunda) es esencial para una segmentación precisa. La Figura 2 es el resultado de la comparación cualitativa de U-Net, Wide U-Net y UNet ++.
Inserte la descripción de la imagen aquí
Inserte la descripción de la imagen aquí
Poda del modelo : después de que UNet ++ se haya podado en diferentes grados, su rendimiento de segmentación se muestra en la Figura 3. Usamos UNet ++ Li para representar el UNet ++ podado en el i-ésimo nivel (consulte la Figura 1c para obtener más detalles). Se puede ver que el tiempo medio de razonamiento de UNet ++ L3 se reduce en un 32,2% y IoU solo se reduce en 0,6 puntos. Una poda más agresiva reduce aún más el tiempo de inferencia, pero a costa de una disminución significativa en la precisión.

5. Conclusión

  Para resolver la necesidad de una segmentación de imágenes médicas más precisa, proponemos UNet ++. La arquitectura propuesta utiliza una ruta de salto rediseñada y una supervisión profunda. La ruta de salto rediseñada tiene como objetivo reducir la brecha semántica entre el mapeo de características de las subredes del codificador y del decodificador, resolviendo así un problema de optimización posiblemente más simple para el optimizador. El monitoreo en profundidad también puede segmentar las lesiones con mayor precisión, especialmente las lesiones que aparecen en múltiples escalas, como los pólipos en los videos de colonoscopia. Evaluamos UNet ++ utilizando cuatro conjuntos de datos de imágenes médicas, incluida la segmentación de nódulos pulmonares, la segmentación de pólipos de colon, la segmentación del núcleo celular y la segmentación del hígado. Nuestros experimentos muestran que bajo una supervisión profunda, UNet ++ tiene una ganancia promedio de IoU de 3.9 y 3.4 puntos sobre U-Net y Wide U-Net, respectivamente.

Dos, suplemento

El autor conoce personalmente la columna de explicación Unet ++ estudio
Unet series video explicación agregar enlace descripción


Supongo que te gusta

Origin blog.csdn.net/qq_43173239/article/details/112870517
Recomendado
Clasificación