[Paper Express] WACV2023: segmentación de imágenes médicas de muestra pequeña con atención similar cíclica

[Paper Express] WACV2023: segmentación de imágenes médicas de muestra pequeña con atención similar cíclica

【Texto original】 : Segmentación de imágenes médicas de pocos disparos con atención de similitud de ciclo

获取地址:https://arxiv.org/pdf/2212.03967.pdf

Palabras clave de Blogger: aprendizaje de muestra pequeña, segmentación semántica, autosupervisión, prototipo

Documentos relacionados recomendados:

【论文速递】PR2023 - 基于自正则原型网络的小样本语义分割
- https://blog.csdn.net/qq_36396104/article/details/128822068

Resumen:

En los últimos años, debido a la mejora continua de los requisitos de las aplicaciones de imágenes médicas y los requisitos profesionales para la anotación de imágenes médicas, el aprendizaje de muestras pequeñas ha atraído cada vez más la atención en el campo de la segmentación semántica de imágenes médicas. Para segmentar un número limitado de imágenes médicas etiquetadas, la mayoría de los estudios existentes utilizan Prototype Networks (PN) con un éxito impresionante. Sin embargo, estos métodos ignoran las características de la imagen de consulta extraídas de la red de representación propuesta y no preservan la conexión espacial entre las imágenes de consulta y de soporte. En este documento, proponemos una nueva red de segmentación de imágenes médicas de pocas tomas autosupervisadas e introducimos un nuevo módulo de atención de similitud recurrente (CRA) para explotar completamente la relación a nivel de píxel entre la consulta y las imágenes médicas de apoyo. En particular, primero organizamos múltiples bloques de atención para destilar información relacional más rica. Luego presentamos CRAPNet al integrar el módulo CRA con redes prototípicas clásicas, donde las relaciones a nivel de píxel entre las funciones de consulta y soporte están bien capturadas para la segmentación. Los extensos experimentos en dos conjuntos de datos de imágenes médicas diferentes, como la resonancia magnética abdominal y la tomografía computarizada abdominal, demuestran que nuestro modelo supera los métodos de vanguardia existentes.

Introducción:

La segmentación semántica, una tarea fundamental en la visión artificial, ha logrado un éxito impresionante en los últimos años debido al florecimiento de los datos anotados. Como tal, abre aplicaciones emergentes del mundo real de segmentación de imágenes médicas que pueden ayudar a los médicos a diagnosticar enfermedades más rápido, planificar tratamientos y administrarlos mejor. Para procesar de manera eficiente imágenes médicas a gran escala, diferentes de las imágenes generales, el etiquetado preciso y profesional es particularmente importante. Sin embargo, etiquetar una cantidad tan grande de datos requiere mucho tiempo y conocimientos [21, 5, 13, 19, 4]. Por lo tanto, en el campo de las imágenes médicas, el aprendizaje de pocos disparos [32, 34, 16, 41] ha atraído cada vez más la atención de los investigadores debido a su importante ventaja de no requerir muchos datos etiquetados. Específicamente, las representaciones discriminativas se pueden extraer de uno o varios ejemplos anotados a nivel de píxel (datos de soporte) para lograr la predicción de etiquetas a nivel de píxel para ejemplos no anotados (datos de consulta). Además, en comparación con las imágenes generalmente almacenadas en formatos 2D, las imágenes médicas suelen ser imágenes 3D altamente estructuradas de órganos humanos y regiones del torso en diversas modalidades, como MRI (resonancia magnética), US (ultrasonido), CT (tomografía computarizada) y x -rayo [1,24,20,29,6,35,15]. Las regiones de interés en las imágenes médicas suelen ser pequeñas y uniformes, mientras que los fondos irrelevantes son bastante extensos y no uniformes [40, 34]. En las imágenes médicas, una gran cantidad de pequeñas células, tejidos y órganos a menudo se amontonan, lo que dificulta trazar el límite entre el primer plano y el fondo.

inserte la descripción de la imagen aquí

Fig. 1. Figura 1: (a) Prototipo de red de agrupación clásica. Los prototipos se generan extrayéndolos de un grupo de ventanas de funciones de soporte. (b) Inserte nuestro módulo de Atención de similitud cíclica (CRA) propuesto antes del paso de agrupación para integrar funciones de soporte y funciones de consulta a través de la atención a nivel de píxel para mejorar la relación espacial entre ellas. Además, se introducen prototipos para guiar la predicción de máscaras de consulta.

Las técnicas existentes de segmentación de imágenes de pocos disparos se pueden clasificar en términos generales en aprendizaje de afinidad y aprendizaje de prototipos de acuerdo con la forma en que se genera la máscara binaria predictiva [16]. Estos últimos diseñan redes prototipo [32, 17, 41, 34, 38, 16] y generan prototipos generalizados y resistentes al ruido. Como se muestra en la Figura 1(a), las características de la imagen de soporte se refinan mediante la máscara de soporte y se introducen en el módulo de agrupación para obtener prototipos. Finalmente, los prototipos se combinan con funciones de consulta (p. ej., uniones) que emplean operaciones comunes. A pesar del buen desempeño de los métodos basados ​​en prototipos, todavía existen algunas desventajas. (i) Estos métodos inevitablemente pierden la información espacial de las imágenes de soporte, especialmente cuando hay un gran cambio en la apariencia del objeto entre la imagen de soporte y la imagen de consulta debido a demasiados o muy pocos prototipos [16]. (ii) La relación entre las diferentes clases en una imagen es clave para tomar decisiones de segmentación en la imagen de consulta, que los métodos actuales ignoran. (iii) Las redes prototípicas actuales no prestan suficiente atención a la interacción entre las funciones de soporte y las funciones de consulta durante la etapa de entrenamiento. Esta interacción insuficiente dará como resultado la incapacidad de generar prototipos completamente representativos. Sin embargo, dado que la imagen de consulta y la imagen de soporte tienen más similitudes en primer plano y en segundo plano, esta interacción es crucial en las tareas de segmentación de imágenes. Especialmente en el contexto de las imágenes médicas, la disposición de diferentes objetos a menudo sigue un patrón similar entre las imágenes de consulta y de apoyo.

Para abordar los problemas antes mencionados, en este documento, proponemos un método novedoso de segmentación de imágenes médicas de pocas tomas con un mecanismo de atención de similitud recurrente, como se muestra en la Fig. 1 (b). Presentamos principalmente una nueva red de prototipos de atención de similitud recurrente (CRAPNet) para capturar completamente los detalles intrínsecos de los objetos y preservar la información espacial entre los píxeles en la imagen de consulta y la imagen de soporte. Como se muestra en la Figura 2, no damos un sesgo B adicional al verificar si los pares coincidentes de píxeles consistentes en el período pertenecen a la misma clase, sino que comparamos similitud entre estos pares de píxeles. De esta forma, construimos una conexión soporte-consulta-soporte y combinamos la relación entre un píxel y sus "vecinos" más similares para obtener prototipos. Además, al profundizar en las diferencias entre imágenes médicas de apoyo y consulta, argumentamos que las imágenes de consulta y apoyo pueden verse específicamente como secuencias de video interrumpidas o flujos de imágenes si los objetos están muy estructurados y organizados. Por lo tanto, diseñamos un módulo de similitud periódico para calcular una suma ponderada sobre una ubicación de píxel dada como una operación no local para características de soporte y características de consulta de estructuras no locales. En cierto sentido, esta estructura no nativa se puede empaquetar en un bloque de red que se puede encadenar y usar como un módulo de inserción. Luego, en base a los módulos anteriores, se diseñan la rama de soporte y la rama de consulta, y se describe de forma interactiva la conexión entre ellas.

Las contribuciones de este trabajo se pueden resumir de la siguiente manera:

  • Hasta donde sabemos, este es el primer intento de abordar las tareas de segmentación de imágenes médicas mediante el diseño de una red prototipo de atención de similitud de ciclo (CRAPNet) que preserva la correlación espacial entre las características de la imagen y la incorporó con éxito a la red prototipo tradicional.
  • Se propone un nuevo bloque no local con módulos de similitud recurrentes incorporados, que se pueden encadenar y utilizar como módulos de inserción.
  • Amplios experimentos en dos conjuntos de datos de imágenes médicas diferentes, como MRI abdominal y CT abdominal, demuestran la efectividad de nuestro método propuesto.

inserte la descripción de la imagen aquí

Fig. 2. Figura 2: (a) Las características extraídas por la red troncal se ingresan primero a los 5 bloques de atención de consulta admitidos de cada rama, donde los bloques de atención g, φ, θ son operaciones de convolución 1 × 1 × 1. El módulo CRM entre θ y φ utiliza el mecanismo de similitud de ciclo. (b) la similitud de ciclo primero calcula la multiplicación de la matriz entre el mapa de características de soporte y el mapa de características de consulta después de la convolución φ y σ. Luego, para un píxel i en el mapa de funciones de soporte, el píxel j* más similar se encuentra en la función de consulta a través de la matriz de búsqueda. Para j*, también se puede encontrar el píxel i* más similar. Finalmente, se calcula la similitud del coseno entre las características xis y xi*s, y se devuelve el peso del píxel i mediante la función softmax.

【Paper Express | Destacados】

Dirección del foro: https://bbs.csdn.net/forums/paper

Supongo que te gusta

Origin blog.csdn.net/qq_36396104/article/details/128874255
Recomendado
Clasificación