【Red neuronal convolucional de atención recurrente para reconocimiento de imágenes detalladas】

Clasificación de enfermedades de la piel basada en métodos detallados débilmente supervisados

Título del artículo

Mire más de cerca para ver mejor: red neuronal convolucional de atención recurrente para el reconocimiento de imágenes detallado

Fuente del artículo

CVPR2019

motivación del autor

La localización de regiones y el aprendizaje de características detalladas son dos desafíos importantes en los problemas detallados. Los métodos existentes (antes de 19 años) se centran principalmente en resolver estos dos problemas de forma independiente, pero ignoran la correlación entre los dos, por lo que se propone una nueva arquitectura: RA-CNN.

ideas del autor

Una imagen de entrada se recorta a través de la Red de propuesta de atención (APN) y luego se amplía mediante interpolación bilineal. El efecto equivale a descartar otra información en la imagen y ampliar lo que "yo" quiero ver. El efecto es el siguiente:
Insertar descripción de la imagen aquí

Red de arquitectura

Insertar descripción de la imagen aquí
Explicación aproximada:
ingrese una imagen original. Hay dos tareas para la imagen original. Una es clasificar la imagen original mediante convolución-totalmente conectada-softmax como la clasificación de imágenes convencional y obtener las probabilidades de una serie de categorías; la segunda es obtener las probabilidades de una serie de categorías después de la convolución Una serie de mapas de características obtenidos después de la producción se pasan a través de la Red de propuesta de atención (APN) para obtener los resultados de la atención. Como se muestra en la imagen de arriba, nuestra atención está en la cabeza del pájaro, por lo que recortamos otras partes, dejando solo la cabeza del pájaro, y luego ampliamos la cabeza del pájaro mediante agrupación bilineal. Haciendo eco del título del artículo: cuanto más cerca ves, mejor ves

Explicación detallada:
para una imagen A, después de la extracción de características (operación de convolución) - conexión completa - softmax, se obtiene la probabilidad P de diferentes categorías, como se muestra a continuación: La pérdida
Insertar descripción de la imagen aquí
L (X) 1 es:

Al mismo tiempo, después de la característica extracción Se obtiene una serie de mapas de características y, a través del módulo de propuesta de atención
(APN), se obtiene un bloque de atención cuadrado, registrado como:

tx representa la coordenada x del centro de atención, ty representa la coordenada y del centro de atención, y tl representa el bloque de atención, la mitad de la longitud del lado. Esto es lo que debemos dejar en la imagen original.