NIPS2019《Red de atención cruzada para clasificación de pocas posibilidades》

Insertar descripción de la imagen aquí
Publicado en NIPS2019! ! !
Enlace del artículo: https://proceedings.neurips.cc/paper/2019/file/01894d6f048493d2cacde3c579c315a3-Paper.pdf
Enlace del código: https://github.com/blue-blue272/fewshot-CAN

1. motivo

Insertar descripción de la imagen aquí
Aunque prometedor, pocos han prestado suficiente atención a la reconocibilidad de las características extraídas. Por lo general, extraen características de clases de soporte y muestras de consultas sin etiquetar de forma independiente, por lo que las características no son lo suficientemente discriminativas. Por un lado, las imágenes de prueba en el conjunto de soporte/consulta son de clases invisibles, por lo que sus características difícilmente se pueden usar para los objetos de destino . Específicamente, para imágenes de prueba que contienen múltiples objetos, las características extraídas pueden centrarse en objetos en clases vistas con una gran cantidad de muestras etiquetadas en el conjunto de entrenamiento, mientras ignoran objetos en clases no vistas. Como se muestra en la Figura 1© y (d) arriba, dos imágenes de las cortinas de la clase de prueba, las características extraídas solo capturan información sobre objetos relacionados con la clase de entrenamiento, como personas o sillas en la Figura 1 (a) y (b). Por otro lado, el problema de los datos bajos hace que las características de cada clase de prueba no representen la verdadera distribución de clases porque se obtiene con muy pocas muestras de soporte de etiquetas . En resumen, la representación independiente de características puede fallar en la clasificación de muestras pequeñas.

2. Contribución

En este trabajo, se propone una nueva Red de Atención Cruzada (CAN) para mejorar la discriminabilidad de características para la clasificación de muestras pequeñas.
1) Primero, se introduce el Módulo de atención cruzada (CAM) para resolver el problema de las clases invisibles . La idea de la atención cruzada está inspirada en el comportamiento humano de aprendizaje de pocas oportunidades. Para identificar una muestra de una clase no descubierta, los humanos tienden a localizar primero las regiones más relevantes entre pares de muestras etiquetadas y no etiquetadas. De manera similar, dado un mapa de características de clase y un mapa de características de ejemplo de consulta, CAM genera un mapa de atención cruzada para cada característica para resaltar el objeto de destino. Para lograr este propósito, se emplean métodos de estimación de correlación y metafusión. Esto permite que el objeto objetivo en la muestra de prueba capte la atención y las características ponderadas por el mapa de atención cruzada son más discriminativas. Como se muestra en la Figura 1 (e), las características extraídas por CAM se pueden usar para ubicar aproximadamente el área de la pantalla del objeto objetivo.
2) En segundo lugar, presentamos un algoritmo de inferencia directa que utiliza todo el conjunto de consultas sin etiquetas para aliviar el problema de la escasez de datos . El algoritmo predice de forma iterativa etiquetas para muestras de consultas y selecciona muestras de consultas pseudoetiquetadas para ampliar el conjunto de soporte. Cuantas más muestras de apoyo haya para cada clase, más representativas serán las características de la clase resultante, aliviando así el problema de la escasez de datos.

3. Método

3.1 Definición del problema

La clasificación de pocas posibilidades suele incluir un conjunto de entrenamiento, un conjunto de soporte y un conjunto de consulta. El conjunto de entrenamiento contiene una gran cantidad de clases y muestras etiquetadas. El conjunto de soporte de algunas muestras etiquetadas y el conjunto de consulta de muestras sin etiquetar comparten el mismo espacio de etiquetas, y el espacio de etiquetas no está conectado al espacio de etiquetas del conjunto de entrenamiento. El propósito de la clasificación de pocas tomas es clasificar muestras de consultas sin etiquetar dado un conjunto de entrenamiento y un conjunto de soporte. Si el conjunto de soporte consta de clases C y muestras etiquetadas con K de cada clase, el problema objetivo de pocos disparos se denomina disparo K de vía C.
Según la experiencia existente, este artículo también utiliza el mecanismo de entrenamiento de episodios, que ha demostrado ser un método de aprendizaje eficaz de pocas muestras. Los episodios utilizados en el entrenamiento simulan los escenarios de las pruebas. Cada episodio se compone de CC muestreados al azar.Clase C y todas las clasesKK.K muestras etiquetadas como grupo de soporteS = { ( xas , yas ) } a = 1 ns ( ns = C × K ) \mathcal{S} = \{ (x^s_a, y^s_a)\}^{n_s} _ {a=1} (n_s = C\veces K)S={ ( xas,yas) }un = 1nortes( n.s=C×K ) ,CCUna pequeña parte de las muestras restantes en la clase C se utiliza como conjunto de consultas Q = { ( xbq , ybq ) } b = 1 nq \mathcal{Q} = \{ (x^q_b, y^q_b)\}^{ n_q}_ {b=1}q={ ( xbq,ybq) }segundo = 1norteqcomposición. Haremos S k \mathcal{S}^kSk se expresa como elkésimoUn subconjunto admitido de k clases. Cómo representar cada clase de soporteS k \mathcal{S}^kSk y consulta de muestraxbqx^q_bXbq, y medir la similitud entre ellos es una cuestión clave en la clasificación de pocos disparos.

3.2 Módulo de Atención Cruzada

En este trabajo, obtenemos representaciones de características apropiadas para cada par de clases de soporte y muestras de consultas a través del aprendizaje métrico. Este artículo propone el Módulo de atención cruzada (CAM), que puede modelar la correlación semántica entre las características de clase y las características de consulta, atrayendo así la atención sobre el objeto objetivo y facilitando la coincidencia posterior.
Insertar descripción de la imagen aquí
El CAM se muestra en (a) arriba. Mapa de características de clase P k ∈ R c × h × w P^k \in \mathbb{R}^{c \times h \times w}PAGkRc × h × w se obtiene de la muestra de soporteS k ( k ∈ { 1 , 2 , ⋯ , C } ) \mathcal{S}^k (k \in \{ 1, 2, \cdots, C\})Sk (k{ 1 ,2 ,,C } ) , mientras consulta el mapa de característicasQ b ∈ R c × h × w Q^b \in \mathbb{R}^{c \times h \times w}qbRc × h × w es de la muestra de consultaxbq ( b ∈ { 1 , 2 , ⋯ , nq } ) x^q_b (b \in \{ 1, 2, \cdots, n_q\})Xbq( segundo{ 1 ,2 ,,norteq} ) . dondecc_chhh ,www son el número de canal, la altura y el ancho del mapa de características respectivamente. CAM esP k ( Q b ) P^k (Q^b)PAGk (Qb )Generar mapa de atención cruzadaA p (A q) A^p (A^q)Apag (unq ), y luego useA p ( A q ) A^p (A^q)Apag (unq )Pondere el mapa de características para lograr una representación de características más discriminativaP ˉ bk ( Q ˉ kb ) \bar{P}^k_b (\bar{Q}^b_k)PAGˉbk(

Supongo que te gusta

Origin blog.csdn.net/weixin_43994864/article/details/123349370
Recomendado
Clasificación