TIP 2022: Aprendizaje contrastivo asimétrico guiado por grupos para la reidentificación de personas sin supervisión

código de tesis

1. Resumen

  • Los métodos de Re-ID no supervisados ​​existentes generalmente se basan en pseudoetiquetas agrupadas. Sin embargo, los resultados de la agrupación dependen en gran medida de la calidad de las funciones aprendidas, que se ven afectadas en gran medida por el color de la imagen. Tratamos de suprimir el efecto dominante negativo del color para aprender características más efectivas para la Reidentificación de personas sin supervisión. Específicamente, proponemos un método de aprendizaje contrastivo asimétrico guiado por clústeres (CACL) para Re-ID de personas no supervisadas, en el que los resultados del agrupamiento se utilizan para guiar el aprendizaje de características en un marco de aprendizaje contrastivo asimétrico diseñado adecuadamente. En CACL, el aprendizaje contrastivo tanto a nivel de instancia como a nivel de clúster se utiliza para ayudar a las redes siamesas a aprender características discriminatorias para agrupar resultados dentro de diferentes vistas de aumento de datos y entre diferentes vistas de extensión de datos, respectivamente. Además, proponemos un método de refinamiento de clústeres y verificamos que el paso de refinamiento de clústeres ayuda significativamente a CACL.

2. Introducción

  • Recientemente, los métodos existentes de Re-ID de personas no supervisadas generalmente se basan en la explotación de información supervisada débilmente (p. ej., pseudoetiquetas) en la agrupación. Sin embargo, el rendimiento de estos métodos depende en gran medida de la calidad de las pseudoetiquetas, que dependen directamente de la representación de características de la imagen de entrada. Recientemente, el aprendizaje contrastivo se ha aplicado para realizar el aprendizaje de características en un entorno no supervisado. La idea principal de estos métodos es aprender cierta invariancia en la representación de características a través de un mecanismo autosupervisado basado en el aumento de datos.

  • En este documento, intentamos desarrollar un marco eficaz para la identificación de personas no supervisadas utilizando información de agrupamiento para el aprendizaje contrastivo. Observamos que el rendimiento de Re-ID de persona depende en gran medida de la eficacia de las funciones aprendidas. Sin embargo, las funciones aprendidas están abrumadoramente dominadas por los colores en las imágenes de peatones, especialmente en entornos no supervisados. Por ejemplo, las imágenes de peatones con ropa de colores similares tienden a tener distancias pequeñas en el espacio de características, lo que puede generar errores de agrupación, lo que puede dar una guía incorrecta a las pseudoetiquetas de la red entrenada. Aunque el color es una característica importante para hacer coincidir las imágenes de peatones. También puede ser un obstáculo para aprender características de textura más sutiles y efectivas, que son importantes pistas finas para Re-ID. Por lo tanto, es deseable aprender características más robustas y discriminatorias contra los colores dominantes para la tarea Re-ID de la persona.

  • Sin embargo, es muy difícil suprimir adecuadamente la influencia negativa del color para aprender características de grano fino más efectivas sin perder información discriminatoria. Por ejemplo, el uso directo de variaciones de color aleatorias (es decir, difuminado de color) para el aumento de datos en el entrenamiento contrastivo puede dañar la consistencia de la distribución de color sin ayudar a obtener la generalización a muestras no vistas. Con este fin, en este documento, proponemos un marco novedoso y eficiente para el Re-ID de personas no supervisado llamado Aprendizaje Contrastivo Asimétrico Guiado por Grupos (CACL), donde la información de agrupamiento se incorpora adecuadamente al aprendizaje contrastivo, para aprender características robustas y discriminativas mientras suprimiendo los colores dominantes.
    Figura 1

  • Específicamente, exploramos la información supervisada desde la perspectiva de la supresión del color en un marco de aprendizaje contrastivo guiado por grupos, donde, como se muestra en la Figura 2, las muestras asimétricas In-view se utilizan para proporcionar una fuerte supervisión para imponer la invariancia en el aprendizaje de características. Al integrar los resultados de la agrupación en el aprendizaje contrastivo, el marco propuesto puede evitar el colapso de características. Al suprimir los colores dominantes, el marco propuesto puede aprender de manera efectiva características robustas y discriminatorias distintas del color. Además, proponemos un método de refinamiento de clúster simple pero efectivo para mejorar los resultados de agrupamiento, lo que mejora aún más el aprendizaje contrastivo.
    Figura 2

  • Contribuciones en papel
    1) Proponemos un marco eficiente no supervisado que aprovecha la información de agrupamiento para el aprendizaje contrastivo mientras suprime los colores dominantes en las imágenes para aprender características de grano fino.
    2) Proponemos una nueva función de pérdida a nivel de grupo para realizar un aprendizaje contrastivo entre vistas e intravista, que puede utilizar de manera efectiva información oculta a nivel de grupo de diferentes vistas aumentadas de datos.
    3) También proponemos un método de refinamiento de conglomerados y verificamos que la información refinada del conglomerado es de gran ayuda para el marco de aprendizaje contrastivo.

3. Método

CACL

  • Dado un conjunto de datos sin etiquetar I = { I i } i = 1 NI=\left \{ I_{i} \right \} _{i=1}^{N}I={ yoyo}yo = 1norte, para la entrada I i ∈ I I_{i} \in IIyoI genera I ^ i \hat{I}_{i}a través del aumento de datosI^yoI ~ i \tilde{I}_{i}I~yoEntrada a dos ramales, como se muestra en la Figura 3. yo ^ yo = T ( yo yo ) \hat{I}_{i}=T \left (I_{i} \right)I^yo=T( yoyo)I ~ i = G ( T ′ ( I i ) ) \tilde{I}_{i}=G(T^{'} (I_{i} ))I~yo=G ( T (yoyo)) , dondeT ( ∙ ) T(\bullet )T ( ) yT ′ ( ∙ ) T^{'} (\bullet)T ()representa dos transformaciones diferentes,G ( ∙ ) G(\bullet )G ( ) representa la operación de convertir una imagen en color en una imagen en escala de grises. Para simplificar, denotamos las características de salida de la primera rama de la red y las características de salida de la segunda rama de la red comoxi x_{i}Xyo

Supongo que te gusta

Origin blog.csdn.net/u013308709/article/details/129643866
Recomendado
Clasificación