ICLR2022《CDTrans: Transformador entre dominios para adaptación de dominios no supervisados》

Insertar descripción de la imagen aquí
Enlace del artículo: https://arxiv.org/pdf/2109.06165.pdf
Enlace del código: https://github.com/CDTrans/CDTrans

1. motivo

La adaptación de dominio no supervisada (UDA) es un método para transferir conocimiento de un dominio de origen etiquetado a un dominio de destino diferente no etiquetado. Los métodos UDA existentes se centran principalmente en aprender representaciones de características invariantes del dominio, ya sea desde el nivel de dominio o desde el nivel de categoría, utilizando marcos basados ​​en redes neuronales convolucionales (CNN). Un problema básico de la UDA basada en el nivel de categoría es que las muestras en el dominio de destino producirán pseudoetiquetas, que son demasiado ruidosas y no conducen a una alineación precisa del dominio e inevitablemente afectan el rendimiento de la UDA. Con la aplicación exitosa de Transformer en varias tareas, se descubre que la atención cruzada en Transformer es más robusta para los pares de entrada ruidosos, logrando así una mejor alineación de características. Por lo tanto, este documento utiliza Transformer para completar la desafiante tarea UDA.

2. Método

Se propone un marco de transformador de triple rama (CDTrans), aprovechando su robustez frente a datos etiquetados ruidosos y fuertes capacidades de alineación de características; para generar pseudoetiquetas de alta calidad, se propone un método de etiquetado bidireccional con reconocimiento del centro, que mejora CDTrans. La actuación final en el medio ambiente.


  • El propósito del módulo de autoatención Cross Attention en Transformer
    Insertar descripción de la imagen aquí
    es enfatizar la relación entre pequeños parches de la imagen de entrada: el módulo de atención cruzada se deriva del módulo de autoatención. La diferencia es que la entrada de atención cruzada es un par de imágenes, a saber, I s I_sIsSuma yo t yo_tIt. Su consulta y clave/valor provienen de I s I_s respectivamente.IsSuma yo t yo_tItparche. El cálculo del módulo de atención cruzada es el siguiente:
    Insertar descripción de la imagen aquí
    Insertar descripción de la imagen aquí
    Como se muestra en la Figura 1a, el módulo de atención cruzada asignará un peso bajo a diferentes parches en el par de falsos positivos, debilitando así el impacto negativo de diferentes parches en el rendimiento final de hasta cierto punto; como se muestra en la Figura 1b, el eje x representa la tasa de pares de falsos positivos en los datos de entrenamiento, el eje y representa el desempeño de diferentes métodos en la tarea UDA, la curva roja representa los resultados obtenidos al alinear el módulo de atención cruzada, y la curva verde representa los resultados sin atención cruzada, es decir, directamente Los datos de destino se entrenan con etiquetas correspondientes a los datos de origen. La curva azul es para eliminar pares falsos positivos de los datos de entrenamiento y solo Utilice pares positivos verdaderos para entrenar la atención cruzada. En ausencia de datos ruidosos, la curva azul puede considerarse el límite superior de nuestro enfoque. Se puede ver que la curva roja funciona mucho mejor que la curva verde, lo que indica que el módulo de atención cruzada es resistente al ruido.
  • Pseudoetiquetado bidireccional con reconocimiento del centro
    1) Bidireccional
    Para construir el par de entrenamiento del módulo de atención cruzada, un método intuitivo es encontrar la imagen más similar del dominio de destino para cada imagen en el dominio de origen. El conjunto de pares seleccionados PS P_SPAGSes:
    Insertar descripción de la imagen aquí
    donde S, T son datos de origen y datos de destino respectivamente. d ( fs , fk ) d(f_s, f_k)re ( fs,Fk) representa la imageniiyo y la imagenjjdistancia característica entre j . La ventaja de esta estrategia es que utiliza completamente los datos de origen, pero la desventaja es que solo involucra una parte de los datos de destino. Para eliminar este sesgo de entrenamiento de los datos objetivo, introducimos más pares de PT P_Tdesde la dirección opuesta.PAGt, que consta de todos los datos de destino en el dominio de origen y sus correspondientes imágenes más similares:
    Insertar descripción de la imagen aquí
    por lo tanto, el conjunto final PPP es la unión de dos conjuntos, es decir,P = PS ∪ PTP = {P_S \cup P_T}PAG=PAGSPAGt, de modo que el par de entrenamiento contenga todos los datos de origen y de destino. 2) PP
    de filtrado centrado en el centro
    Los pares en P se construyen en función de la similitud de características de las imágenes de dos dominios, por lo que la precisión de las pseudoetiquetas de los pares depende en gran medida de la similitud de características. Inspirándose enel artículo "¿Realmente necesitamos acceder a los datos de origen? Transferencia de hipótesis de origen para una adaptación de dominio no supervisada", sedescubrió que los modelos de datos de origen previamente entrenados también pueden ayudar a mejorar aún más la precisión. Primero, el autor envía todos los datos de destino a través del modelo previamente entrenado y obtiene su distribución de probabilidad δ en la categoría de origen del clasificador; de manera similar al artículo, estas distribuciones se pueden calcular mediante agrupación de medias kponderadaspara calcular cada individuo. clase en el dominio objetivo.Centro inicial de la categoría:
    Insertar descripción de la imagen aquí
    donde,σ tk \sigma^k_tpagtkRepresenta la imagen ttt aparece en la categoríakkprobabilidad en k . El clasificador vecino más cercano puede generar pseudoetiquetas para los datos de destino:
    Insertar descripción de la imagen aquí
    dondet ∈ T t \in TtTd ( i , j ) d(i, j)re ( yo ,j ) es la característicaiiyo yjjj distancia. Con base en las pseudoetiquetas, se pueden calcular nuevos centros:
    Insertar descripción de la imagen aquí
    para cada par, si la pseudoetiqueta de la imagen de destino es consistente con la etiqueta de la imagen de origen, este par se retiene para el entrenamiento; de lo contrario, se descarta como ruido.
  • CDTrans: Transformador de dominio cruzado
    Insertar descripción de la imagen aquí
    El marco del transformador de dominio cruzado propuesto (CDTrans) se muestra en la Figura 2, que consta de tres transformadores de peso compartido. La rama de peso compartido tiene tres flujos de datos y restricciones.
    Las entradas al marco son pares seleccionados del método de etiquetado que mencionamos anteriormente. Estas tres ramas se denominan rama de origen, rama de destino y rama de origen-destino. Como se muestra en la Figura 2, las imágenes de origen y de destino en el par de entrada se envían a la rama de origen y a la rama de destino respectivamente. En ambas ramas, el módulo de autoatención se utiliza para aprender representaciones de dominios específicos. Y utilice la pérdida de entropía cruzada de softmax para entrenar la clasificación. Vale la pena señalar que dado que las dos imágenes tienen la misma etiqueta, estas tres ramas comparten el mismo clasificador. El módulo de atención cruzada se importa en la rama de origen y destino. La entrada a la rama origen-destino proviene de las otras dos ramas. En la enésima capa, la consulta del módulo de atención cruzada proviene de la enésima consulta de la capa de la rama de origen, y la clave y el valor provienen de la clave y el valor de la rama de destino (¿por qué no utilizar las características mejoradas del dominio de destino y del dominio de origen? como consulta y clave, valor? ? Esto confunde un poco a la gente\textcolor{red}{En la enésima capa, la consulta del módulo de atención cruzada proviene de la enésima capa de consulta de la rama fuente,\\ y la clave y el valor provienen de la clave y el valor de la rama de destino (¿por qué no usar las características mejoradas del dominio de destino y del dominio de origen como consulta y clave, valor?\\Esto es un poco confuso}En la enésima capa , la consulta del módulo de atención cruzada proviene de la enésima consulta de la capa de la rama fuente , _ _ _ _ _Y la clave y el valor provienen de la clave y el valor de la rama de destino ( ¿ por qué no utilizar la rama de destino mejorada ?Características del dominio estándar y del dominio de origen como q u e r y y k e y , v a l u e ? ?Esto es un poco confuso . Luego, el módulo de atención cruzada genera características alineadas con la salida de la capa N-1.
    Debido a la presencia del módulo de atención cruzada, las características de la rama fuente-destino no solo mantienen consistente la distribución de los dos dominios, sino que también son resistentes al ruido en el par de entrada. Por lo tanto, utilizamos la salida de la rama de origen-destino para guiar el entrenamiento de la rama de destino. La rama de origen-destino se representa como profesor y la rama de destino se representa como estudiante. Consideramos la distribución de probabilidad del clasificador en la rama fuente-destino como una etiqueta suave que puede usarse para supervisar aún más la rama objetivo a través de una pérdida por destilación:
    Insertar descripción de la imagen aquí
    dondeqk q_kqky pk p_kpagkson categorias kkLa probabilidad de k obtenida de la rama de origen-destino y de la rama de destino. Durante la inferencia, sólo se utiliza la rama objetivo. La entrada es una imagen de datos de prueba y solo se activa el flujo de datos de destino, como se muestra en la línea azul en la Figura 2. La salida del clasificador se utiliza como etiqueta final prevista.

3. Algunos resultados experimentales

Insertar descripción de la imagen aquí
Insertar descripción de la imagen aquí
Insertar descripción de la imagen aquí

4. Conclusión

1) Este artículo resuelve el problema de la adaptación de dominio no supervisada mediante la introducción de un módulo de atención cruzada en Transformer. Y se propone una nueva estructura de red CDTrans, que es una estructura Transformer pura con tres ramas;
2) Se propone un método de etiquetado bidireccional centrado en el centro para generar pseudoetiquetas de alta calidad. El entrenamiento de CDTrans utilizando las pseudoetiquetas de alta calidad generadas produce una solución sólida y logra resultados de última generación en cuatro conjuntos de datos UDA populares, superando significativamente a los métodos anteriores.

Supongo que te gusta

Origin blog.csdn.net/weixin_43994864/article/details/123324038
Recomendado
Clasificación