Convertidor de tokens multiclase para segmentación semántica débilmente supervisada

Transformador de token multiclase para segmentación semántica débilmente supervisada

Resumen

En este artículo, proponemos un marco novedoso basado en transformadores para aprender mapas de localización de objetos específicos de clase como pseudoetiquetas para la segmentación semántica débilmente supervisada (WSSS).
Las regiones de participación de un token en un Transformer visual estándar se pueden explotar para formar un mapa de localización agnóstico de clase.
Este artículo investiga si el modelo de Transformer también puede capturar de manera efectiva la atención específica de la clase mediante el aprendizaje de múltiples tokens en el Transformer, para una localización de objetos más discriminatoria. .

Este artículo propone un Transformador de Tokens de Clase Múltiple llamado MCTformer, que utiliza Tokens de múltiples clases para aprender la interacción entre Tokens de clase y Tokens de parche. MCTformer puede generar con éxito mapas de localización de objetos discriminatorios de clase a partir de las atenciones correspondientes de clase a parche de diferentes tokens de clase.

Los autores también proponen utilizar relaciones de afinidad por pares a nivel de parche, que se extraen del Transformador de parche a parche, para refinar aún más los gráficos locales. Además, se muestra que el marco propuesto complementa completamente los métodos de mapeo de activación de clases (CAM), logrando muy buenos resultados de WSSS en conjuntos de datos PASCAL VOC y MS COCO. Estos resultados enfatizan la importancia de los tokens de clase para WSSS.

inserte la descripción de la imagen aquí
Figura (a) En el gráfico anterior, solo se usó un token de clase (recuadro rojo) para agregar información del token de parche (recuadro azul). La atención del parche aprendido correspondiente a los tokens de clase genera un mapa de localización agnóstico de clase.
(b) El MCTformer propuesto utiliza varios tokens de clase para conocer las interacciones entre los tokens de clase y los tokens de parche. La atención de clase a parche aprendida de diferentes tokens de clase genera mapas de localización de objetos específicos de clase.

Método en este documento

MCTformer-V1

inserte la descripción de la imagen aquí
La imagen RGB de entrada se segmenta primero y se convierte en una secuencia de etiquetas de parche. Proponemos aprender C tokens de clase adicionales, donde C es el número de clases. Los tokens de clase C se concatenan con tokens de parche y se agregan incrustaciones posicionales (PE), luego se pasan a través de sucesivas capas de codificación de transformador L.

Finalmente, los tokens de clase C de salida se utilizan para generar puntajes de clase mediante la agrupación de promedios. Reunir las últimas K capas y la atención de múltiples cabezas produce el mapa de atención final, del cual podemos extraer mapas de localización de objetos específicos de clase y mapas de afinidad por pares a nivel de parche de atención de clase a parche y de parche a parche, respectivamente. . . Las afinidades por pares a nivel de parche se pueden usar para refinar los mapas de atención específicos de la clase para generar mapas de localización de objetos mejorados.

MCTformer-V2

inserte la descripción de la imagen aquí
El módulo CAM se introdujo en MCTformer-V1
El módulo CAM consta de una capa convolucional y una capa de agrupación promedio global (GAP).
Toma los tokens de parche de salida remodelados de la última capa de codificación del transformador como puntajes de clase de entrada y salida.Para
MCTformer-V1, también usamos los tokens de clase de salida para generar puntajes de clase. Por lo tanto, todo el modelo se optimiza aplicando las dos pérdidas de clasificación a las dos predicciones de clase, respectivamente.

En el momento de la inferencia, fusionamos la atención de MCT y los mapas de PatchCAM para refinar aún más los resultados al extraer la afinidad de parche de la atención del transformador de parche a parche para generar el mapa final de localización de objetos.

Otros detalles:
Fusión de módulos:
inserte la descripción de la imagen aquí
refinamiento del mapa de localización de objetos específicos de la clase:
inserte la descripción de la imagen aquí
patch2patch optimiza los módulos fusionados anteriormente

Resultados experimentales

inserte la descripción de la imagen aquí
inserte la descripción de la imagen aquí

Supongo que te gusta

Origin blog.csdn.net/qq_45745941/article/details/130035112
Recomendado
Clasificación