2021 ICCVW 论文:Reducción del esfuerzo de las etiquetas: la autosupervisión se encuentra con el aprendizaje activo

Aprendizaje activo y autosupervisado

1. Resumen

  • El aprendizaje activo reduce la anotación manual al seleccionar muestras representativas o informativas. El entrenamiento autosupervisado aprende características de una gran cantidad de muestras sin etiquetar y luego ajusta los parámetros en una pequeña cantidad de muestras etiquetadas. El trabajo actual se centra en si estos dos métodos pueden beneficiarse mutuamente. Este documento realizó experimentos con los datos de reconocimiento de objetivos CIFAR10/100 y Tiny ImageNet. Los resultados muestran que el entrenamiento autosupervisado es más efectivo que el aprendizaje activo para reducir el tiempo. consumo de etiquetado. Pero cuando el presupuesto de anotación es alto, la combinación de ambos es beneficiosa. La brecha de rendimiento entre el aprendizaje activo y la autoformación o la formación desde cero se reduce cuando se etiqueta casi la mitad del conjunto de datos.

2. Introducción

  • El aprendizaje activo se puede dividir en dos subcampos. El objetivo de los métodos basados ​​en información es identificar aquellas muestras de datos para las cuales el algoritmo es más incierto. Agregar estas muestras al conjunto de datos etiquetados puede mejorar el rendimiento del algoritmo. Los métodos de características basadas en representantes tienen como objetivo etiquetar los datos de tal manera que para todos los datos sin etiquetar haya una muestra etiquetada "representativa" (definida en función de la distancia en el espacio de características). Los métodos de aprendizaje activo a menudo se evalúan mediante el entrenamiento supervisado de la red solo en un grupo de datos etiquetados: se obtienen los mejores resultados.
  • Los principales avances en el entrenamiento autosupervisado provienen de trabajos recientes que aprenden representaciones que son invariables a una variedad de distorsiones de los datos de entrada (por ejemplo, recortar, aplicar desenfoque, voltear, etc.). En estos métodos, se producen dos versiones deformadas de la imagen, llamadas vistas. Luego, la red se entrena imponiendo que las representaciones de las dos vistas sean similares. Para evitar que estas redes converjan en una solución no válida, se han desarrollado diferentes métodos.
  • El aprendizaje autosupervisado puede aprender características de alta calidad que son casi idénticas a las aprendidas mediante métodos supervisados. Por lo tanto, aumenta considerablemente la utilidad de los datos no etiquetados. El paradigma de aprendizaje activo estándar entrena un algoritmo en un conjunto de datos etiquetado y, en función del algoritmo resultante, selecciona los puntos de datos que se espera que sean los más informativos para que el algoritmo comprenda mejor el problema.
  • Con base en nuestros experimentos, se pueden sacar las siguientes conclusiones:
      1. En nuestra evaluación de tres conjuntos de datos, el entrenamiento autosupervisado es mucho más efectivo que AL para reducir el esfuerzo de etiquetado.
      2. El entrenamiento autosupervisado + AL es significativamente mejor que los métodos AL. Sin embargo, para grandes presupuestos de anotación (alrededor del 50 % del conjunto de datos de nuestros experimentos), la brecha de rendimiento disminuye.
      3. Según los resultados de tres conjuntos de datos, la capacitación autosupervisada + AL supera ligeramente a la capacitación autosupervisada, pero solo cuando el presupuesto de etiquetado es mayor.

3. Prefacio

  • Diseñamos un marco que consta de dos partes: entrenamiento autosupervisado y aprendizaje activo. Primero, entrenamos previamente el modelo autosupervisado en muestras sin etiquetar. A continuación, ajuste un clasificador lineal sobre el modelo previamente entrenado utilizando los datos etiquetados iniciales. Luego ejecutamos un ciclo de aprendizaje activo con el modelo ajustado para seleccionar las muestras más informativas o representativas para el etiquetado. Por lo tanto, el conjunto de datos original pasa a formar parte de las etiquetas.
  • El modelo autosupervisado adopta SimSiam, que se basa en redes siamesas y trata de maximizar la similitud entre dos imágenes aumentadas, sujeto a ciertas condiciones para evitar el colapso de soluciones. Esto nos permite obtener representaciones significativas sin usar pares negativos. Las representaciones ricas también pueden facilitar los métodos de aprendizaje activo basados ​​en representaciones.
    Diagrama de marco de red
  • El marco consta de 3 etapas:
       1) El entrenamiento autosupervisado se entrena en todo el conjunto de datos.
       2) Congelar los pesos de la red troncal y, dada una pequeña cantidad de datos etiquetados, ajustarlos de manera supervisada utilizando un clasificador lineal o una máquina de vectores de soporte.
       3) Ejecute el modelo para la inferencia en datos no etiquetados, luego ordene las muestras desde la menos informativa hasta la más informativa a través de la función de adquisición. Finalmente, las muestras con la mayor cantidad de información son anotadas por expertos y agregadas al conjunto de anotaciones.

3.1 Aprendizaje activo

  • El aprendizaje activo generalmente se establece en múltiples rondas de capacitación iterativa y selección de muestras. El número seleccionado cada vez se denomina presupuesto
  • Al comienzo de cada ciclo, el modelo se entrena en las muestras etiquetadas; después del entrenamiento, el modelo selecciona muestras para etiquetar a través de la función de recolección al final de cada entrenamiento; esta muestra etiquetada se agrega al conjunto de datos etiquetados para el siguiente ciclo de entrenamiento. hasta alcanzar el número de ciclos. La función de adquisición es una parte crucial en AL.

3.2 Entrenamiento autosupervisado

Arquitectura Sim Siam

  • Una de las sucursales de SimSiam obtiene un predictor adicional (red MLP) cuya salida pretende estar lo más cerca posible de la otra sucursal. Una rama hace predicción de clasificación y la otra rama no realiza retropropagación durante el entrenamiento. El modelo aumenta la similitud entre dos ramas.
  • SimSiam, además de ser simple, no requiere extracción de muestras negativas ni grandes mini lotes, lo que reduce significativamente los requisitos de GPU.

4. Configuración experimental

  • Seleccione aleatoriamente el 1 %, el 2 % y el 10 % de todo el conjunto de datos de manera uniforme de todas las clases. Para uno de los conjuntos de datos, también evaluamos el tamaño de selección de 0,1% y 0,2%.
  • En cada ciclo, el entrenamiento se reinicia por completo o la red troncal primero se entrena previamente mediante un entrenamiento autosupervisado. El modelo se entrena en c ciclos hasta completar todos los tamaños seleccionados.

5. Resultados experimentales

  • Rendimiento AL en cifar10
    inserte la descripción de la imagen aquí

  • Los experimentos muestran que la autosupervisión reduce en gran medida las etiquetas requeridas, especialmente con presupuestos bajos (pocas etiquetas de capacitación).

  • Ambos métodos (con y sin entrenamiento previo autosupervisado) logran un rendimiento casi completo después de etiquetar el 50 % de los datos, cerrando la brecha entre los métodos autosupervisados ​​y supervisados. Desde una perspectiva de aprendizaje activo, el muestreo aleatorio supera al AL cuando los datos etiquetados son inferiores al 1 %.

  • Rendimiento AL en cifar100
    inserte la descripción de la imagen aquí

  • Cuando se acerca al 50% de los datos etiquetados, AL sin capacitación autosupervisada se desempeña a la par con sus contrapartes de capacitación autosupervisada, lo que implica que el impacto de la capacitación autosupervisada disminuye cuando aumenta el presupuesto. Pero con o sin capacitación previa autosupervisada, el muestreo aleatorio supera a los métodos de aprendizaje activo de bajo presupuesto en un entorno de bajo presupuesto.

  • Rendimiento AL en Tiny ImageNet
    inserte la descripción de la imagen aquí

  • La capacitación previa autosupervisada reduce drásticamente el etiquetado requerido en escenarios de bajo presupuesto. A diferencia del conjunto de datos CIFAR, AL requiere más del 50 % de las etiquetas para cerrar la brecha de rendimiento entre ellas y el entrenamiento autosupervisado. En los métodos que emplean entrenamiento autosupervisado, el muestreo aleatorio funciona mejor. Pero agregar datos etiquetados como se indicó anteriormente puede reducir la brecha de rendimiento con los métodos AL.

  • Ambos resultados experimentales muestran que SimSiam ayuda mucho con un bajo presupuesto en el marco de aprendizaje activo. Con presupuestos elevados, la brecha de rendimiento entre la formación desde cero y SimSiam se reduce.

  • Correlación entre la cantidad de muestras por clase requeridas para AL y la cantidad de clases en los conjuntos de datos Con este presupuesto, AL+autoentrenamiento funciona mejor que Random+autoentrenamiento.
    inserte la descripción de la imagen aquí

6. Conclusión

  • La brecha de rendimiento entre el aprendizaje activo y el entrenamiento autosupervisado se reduce gradualmente cuando se etiqueta casi la mitad del conjunto de datos.

Supongo que te gusta

Origin blog.csdn.net/u013308709/article/details/129109629
Recomendado
Clasificación