Hilo de Ariadne: segmentación mejorada de las regiones infectadas utilizando señales de texto Imágenes de rayos X de tórax

Documento: https://arxiv.org/abs/2307.03942 , Miccai 2023

代码:GitHub - Junelin2333/LanGuideMedSeg-MICCAI2023: código Pytorch de MICCAI 2023 Paper-Hilo de Ariadne: uso de indicaciones de texto para mejorar la segmentación de áreas infectadas a partir de imágenes de rayos X de tórax

De hecho, este artículo trata completamente sobre la optimización de la estructura de red de VLiT, y los cambios no son demasiado grandes. Pensé que sería mejor publicar un artículo en esta dirección relativamente nueva. No presentaré muchos antecedentes aquí, puede consultar directamente mi publicación de blog anterior VLiT. Siento que el nombre es bastante interesante, Ariadne's Thread, el nombre proviene de la mitología griega antigua, que cuenta la historia de Teseo saliendo del laberinto con la ayuda del hilo dorado de Ariadne. El posterior aprendizaje extendido también es muy interesante.

Resumen

La segmentación de las regiones de infección pulmonar es fundamental para cuantificar la gravedad de las enfermedades pulmonares, como las infecciones pulmonares. Los métodos de segmentación de imágenes médicas existentes son casi todos métodos monomodo basados ​​en imágenes. Sin embargo, estos métodos de solo imágenes tienden a producir resultados inexactos a menos que se entrenen con grandes cantidades de datos anotados. Para superar este desafío, proponemos un método de segmentación basado en el lenguaje que utiliza claves textuales para mejorar los resultados de la segmentación . Los experimentos con el conjunto de datos QaTa-COV19 muestran que nuestro método mejora la puntuación de Dice en al menos un 6,09 % en comparación con los métodos unimodales. Además, nuestro estudio ampliado revela la flexibilidad de los enfoques multimodales con respecto a la granularidad de la información textual y muestra que los enfoques multimodales tienen ventajas significativas sobre los enfoques de solo imagen en términos del tamaño de los datos de entrenamiento requeridos .

fondo

Referencia directa a LViT: Language and Vision Transformer in Medical Image Segmentation_Scabbards_'s Blog-CSDN Blog ,

Este artículo es un trabajo de seguimiento de LViT, optimizando la estructura del modelo.

 contribución principal

1) Proponemos un método de segmentación basado en el lenguaje para segmentar regiones de infección a partir de imágenes de rayos X de pulmón.

2) El decodificador de guía diseñado por este método puede propagar de manera adaptativa suficiente información semántica de indicaciones de texto en características visuales a nivel de píxel, lo que promueve la consistencia de los dos modos.

3) Limpiamos los errores contenidos en los comentarios de texto de QaTa-COV19 [17] y contactamos al autor de LViT para lanzar una nueva versión.

4) El estudio ampliado revela el impacto de la granularidad de la información de señales textuales en el rendimiento de segmentación de nuestro método y demuestra la ventaja significativa de los métodos multimodales sobre los métodos de solo imagen en términos del tamaño de datos de entrenamiento requerido.

estructura del modelo

Nuestro método propuesto adopta un diseño modular, donde el modelo consiste principalmente en un codificador de imágenes, un codificador de texto y varios decodificadores de guía. GuideDecoder se utiliza para propagar de forma adaptativa la información semántica de las características de texto a las características visuales y generar características visuales decodificadas.

En comparación con la fusión anterior de LViT, nuestro método de diseño modular propuesto es más flexible. Por ejemplo, cuando nuestro método se aplica a imágenes de resonancia magnética del cerebro, debido al diseño modular, podemos cargar primero los pesos previamente entrenados en los datos correspondientes para separar los codificadores visuales y textuales, y luego solo necesitamos entrenar los GuideDecoders.

Codificador de imagen

ConvNeXt-Tiny

ingresar

Las cuatro etapas son

C es la dimensión característica, H y W son la altura y el ancho de la imagen original

Codificador de texto

CXR-BERT

ingresar

obtener funciones de texto

 C es la dimensión de la característica y L es la longitud del indicador de texto.

GuíaDecodificador

Ingrese: ,

producción:

  Antes de realizar interacciones multimodales, GuideDecoder primero procesa las funciones de texto de entrada y las funciones visuales.

paso 1

Texto

ingresar:

producción:

Las características del texto de entrada primero pasan a través de un módulo de proyección (es decir, Project en la figura), que alinea las dimensiones de los tokens de texto con las de los tokens de imagen y reduce la cantidad de tokens de texto.

 WT es una matriz aprendible

Conv() es una convolución 1 X 1

\delta( ) es la función de activación de ReLU

paso 2

Imagen

ingresar:

producción:

, y el producto de enlace residual

 Después de agregar la codificación posicional, use la atención propia para mejorar la información visual en la imagen para obtener características visuales.

MHSA(·) es la capa de Autoatención Multi-Head

LN(·) 是 Normalización de capas

Paso 3

Ingrese: ,

Salida: características multimodales

Adopte capas de atención cruzada de varios cabezales para propagar información semántica detallada en características de imagen evolucionadas

 MHCA(·) es atención cruzada de varios cabezales

α es un parámetro de aprendizaje que controla el peso de las conexiones restantes

 etapa 4

ingresar:

producción:

 Reformar y aumentar la muestra

Paso 5

Entrada: , , donde fs son las características visuales de bajo nivel obtenidas del codificador visual a través de conexiones de salto

producción:

Procesamiento a través de capas convolucionales y funciones de activación de ReLU

donde [ , ] representan la operación de combinación en la dimensión del canal.

experimento

conjunto de datos

QaTa-COV19

Encontramos algunos errores evidentes (por ejemplo, palabras mal escritas, errores gramaticales, ambigüedades) en las anotaciones de texto ampliado. Solucionamos estos errores identificados y contactamos a los autores de LViT para publicar una nueva versión del conjunto de datos.

Consta de 9258 radiografías de tórax con COVID-19 con anotaciones manuales a nivel de píxel de las regiones pulmonares infectadas, de las cuales 7145 están en el conjunto de entrenamiento y 2113 están en el conjunto de prueba.

configuración del experimento

procesamiento de datos

80% y 20% Por lo tanto, el conjunto de entrenamiento tiene un total de 5716 muestras, el conjunto de validación tiene 1429 muestras y el conjunto de prueba tiene 2113 muestras. Todas las imágenes se recortan a 224 × 224 y los datos se aumentan mediante escalas aleatorias con un 10 % de probabilidad.

hardware

Usamos PyTorch Lightning como el contenedor final de entrenamiento e inferencia. Todos los métodos se entrenan en una GPU NVIDIA Tesla V100 SXM3 32GB VRAM.

detalles de entrenamiento

Usamos Pérdida de dados + Pérdida de entropía cruzada como función de pérdida, y usamos optimización AdamW con tamaño de lote 32 para entrenar la red. Utilizamos una estrategia de tasa de aprendizaje de recocido de coseno con una tasa de aprendizaje inicial de 3e-4 y una tasa de aprendizaje mínima de 1e-6.

Índice de evaluación

Coeficientes de precisión, pérdida de dados y Jaccard. Tanto el coeficiente de Dice como el coeficiente de Jaccard calculan el área de intersección sobre la región conjunta de una máscara de predicción dada y la realidad del terreno, donde el coeficiente de Dice puede reflejar mejor el rendimiento de segmentación de objetos pequeños.

Tanto el coeficiente de Dice como el coeficiente de Jaccard calculan el área de intersección en el área conjunta de la máscara y la verdad del terreno pronosticadas, y el coeficiente de Dice puede reflejar mejor el rendimiento de segmentación de objetos pequeños.

(Así que personalmente siento que Jaccard no es necesario)

Resultados experimentales

Los resultados experimentales cualitativos se muestran en la Figura 2. Los enfoques unimodales de solo imagen son propensos a cierta sobresegmentación

El método multimodal se refiere a la segmentación de la ubicación específica del área infectada a través de indicaciones de texto para que los resultados de la segmentación sean más precisos.

 experimento de ablación

 Como puede verse en la Tabla 2, a medida que aumenta el número de decodificadores de guía utilizados en el modelo, también mejora el rendimiento de segmentación del modelo. Estos resultados pueden demostrar la efectividad del decodificador principal.

Aprendizaje extendido

Efecto de las sugerencias de texto con diferente granularidad en el rendimiento de la segmentación

Expanda cada muestra en anotaciones de texto de tres partes que contengan información de ubicación en diferentes granularidades, como se muestra en la Fig.

 Diagrama que muestra texto con diferentes granularidades y rendimiento de segmentación

 Los resultados de la tabla muestran que nuestro método se basa en la granularidad de la información de ubicación contenida en las indicaciones de texto.

Nuestro método propuesto logra un mejor rendimiento de segmentación cuando se le brindan indicaciones de texto que contienen información de ubicación más detallada .

Mientras tanto, observamos que el rendimiento es casi el mismo cuando se utilizan dos tipos de señales de texto, es decir, Stage3 solo y Stage1+Stage2+Stage3 . Esto significa que la información de ubicación más detallada en las señales de texto juega el papel más importante en la mejora del rendimiento de la segmentación. Pero esto no significa que otra información de posición granular en las indicaciones de texto no contribuya a la mejora del rendimiento de la segmentación. Aunque la sugerencia de texto de entrada contiene solo la información de posición más aproximada (Etapa 1+) en el elemento Etapa 2 en la Tabla 3, nuestro método propuesto logra una puntuación de Dice 1,43 % más alta que el método sin la sugerencia de texto

Efecto del tamaño de los datos de entrenamiento en el rendimiento de la segmentación

Nuestro método propuesto muestra un rendimiento altamente competitivo incluso con una cantidad reducida de datos de entrenamiento.

Utilizando solo una cuarta parte de los datos de entrenamiento, nuestro método propuesto supera la puntuación de Dice de UNet++ en un 2,69 %, el modelo unimodal de mejor rendimiento entrenado en el conjunto de datos completo. Esto proporciona una amplia evidencia de la superioridad de los enfoques multimodales, y las señales de texto apropiadas pueden mejorar significativamente el rendimiento de la segmentación.

 Observamos que cuando los datos de entrenamiento se reducen al 10%, nuestro método comienza a mostrar peor rendimiento que UNet++, que se entrena con todos los datos disponibles. También se pueden encontrar experimentos similares en el documento LViT. Por lo tanto, se puede argumentar que los métodos multimodales requieren solo una pequeña cantidad de datos (menos del 15 % en nuestro método) para lograr un rendimiento comparable al de los métodos unimodales .

Supongo que te gusta

Origin blog.csdn.net/Scabbards_/article/details/132111746
Recomendado
Clasificación