algunas notas en papel de la encuesta de detección de objetivos de disparo (concepto general)

artículo: Detección de objetos de pocos disparos: un estudio completo (CVPR2021)

El aprendizaje profundo mejora la precisión de la detección de objetos, pero requiere una gran cantidad de datos de entrenamiento.
Los objetivos que no se han visto en el conjunto de datos de entrenamiento no se pueden detectar, lo que limita su aplicación práctica.
Si desea que el modelo reconozca nuevos objetivos, debe etiquetarlos usted mismo, lo cual lleva mucho tiempo y es aburrido, y simplemente no hay muchos datos, como datos médicos.
Es diferente a los humanos: los niños pueden reconocer rápidamente un objeto mirándolo.
Entonces esto conduce a la detección de objetivos con pocos disparos (FSOD). Se llama detección de objetivos de muestras pequeñas. Su objetivo es entrenar un modelo previamente entrenado con una pequeña cantidad de datos etiquetados para lograr el propósito de detectar nuevos objetivos.

La idea general es la siguiente.
Insertar descripción de la imagen aquí

Algunos conceptos de detección de objetivos de muestras pequeñas:

Insertar descripción de la imagen aquí

El conjunto de datos base para el entrenamiento del modelo y el nuevo conjunto de datos de muestra pequeña recién anotado no se superponen.

Detección de objetivos de disparo K: novela C C_ {novela}Cnovela _ _ _ _Solo hay K instancias de objetivos etiquetados en cada categoría. No necesariamente tienen que ser K imágenes (puede haber varios objetivos en una imagen).
Lo más difícil es la detección del objetivo de un solo disparo, es decir, K = 1.

Detección de objetivos de N vías: detecta objetivos de N categorías, N<=| C novel C_{novel}Cnovela _ _ _ _|

La detección de objetivos con pocos disparos se puede resumir como detección de disparos K de N vías.

¿Por qué utilizar D base D_ {base} primero?Dba seEntrena y luego usa D novela D_ {novela}Dnovela _ _ _ _, en lugar de usar D novela D_ {novel} directamenteDnovela _ _ _ _¿tren? Porque solo se usa D novela D_ {novel}Dnovela _ _ _ _El entrenamiento será demasiado adecuado y la generalización será deficiente.
Luego ponga D base D_ {base}Dba seNovela D japonesa D_ {novela}Dnovela _ _ _ _¿Qué tal fusionarlos en un conjunto de datos y entrenar juntos? D base D_ {base}Dba seEl número de muestras en el conjunto de datos es mucho mayor que el de muestras pequeñas D novela D_ {novel}Dnovela _ _ _ _, que es un alto grado de desequilibrio de clases. El resultado es que el entrenamiento estará sesgado hacia el conjunto de datos base, lo que dará como resultado resultados deficientes de detección de clases para datos de muestra pequeños.

Básicamente, el entrenamiento se divide en 3 pasos:
en el primer paso, use datos de clasificación (como imageNet) para entrenar primero la columna vertebral y obtener el modelo preliminar M init M_ {init}METROinicio _,
Paso 2, use D base D_{base}Dba seEntrene y obtenga el modelo M base M_{base}METROba seFinalmente
use Insertar descripción de la imagen aquíel entrenamiento para obtener M final M_ {final}METROfinal _ _
Insertar descripción de la imagen aquí

Conceptos relacionados del entrenamiento de datos de muestras pequeñas:

Aprendizaje y clasificación de pocas posibilidades:
se utilizó por primera vez para tareas de clasificación y es más simple que las tareas de detección de objetivos. Algunas de sus ideas también se pueden utilizar para la detección de objetivos.

Aprendizaje semisupervisado: el
aprendizaje semisupervisado, con solo una pequeña cantidad de datos etiquetados y una gran cantidad de datos sin etiquetar, se puede utilizar para aprender representaciones apropiadas y
mejorar las representaciones aprendidas en el aprendizaje de pocas tomas.

Aprendizaje incremental:
el aprendizaje profundo general encontrará graves olvidos: después de aprender nuevos datos, los datos antiguos se olvidarán.
Por ejemplo, primero use el conjunto de datos COCO para entrenar, y luego use los datos de fotografía aérea para entrenar, y luego solo se pueden detectar los datos de fotografía aérea, pero no se pueden detectar los datos de COCO.
El aprendizaje incremental tiene como objetivo preservar el rendimiento de las categorías antiguas.
Cuando sigan apareciendo nuevas categorías, algunos métodos FSOD introducirán el aprendizaje incremental.

Varias detecciones de objetivos diferentes:

Detección general de objetivos: clasificación + marco objetivo, las categorías son limitadas y las que no están en la categoría de entrenamiento se detectan como fondo. Se requiere un conjunto de datos etiquetados para el entrenamiento.

Detección de objetivos entre dominios:
primero entrene con una gran cantidad de datos etiquetados y luego entrene con una pequeña cantidad de datos de diferentes campos. A primera vista, ¿no parece esto como un par de disparos?
De hecho, este no es el caso. Aunque el frente y el reverso del dominio cruzado son dominios diferentes, las categorías antes y después son las mismas. Por ejemplo, los datos sintéticos se usan para entrenar primero y luego los datos reales se usan para entrenar. ; pocos disparos
introduce nuevas categorías.

Detección de objetivos de disparo cero:
es el caso extremo de pocos disparos y los datos etiquetados son 0 (K = 0).
El disparo cero se utiliza a menudo junto con la incrustación semántica de palabras. Los objetivos semánticamente similares tendrán características similares en el espacio de incrustación.
El disparo cero está bien para detectar objetos comunes, pero es problemático si proporcionas una etiqueta especial o quieres distinguir objetos muy similares.

Detección de objetivos débilmente supervisada:
etiquetado débil, los datos de entrenamiento solo contienen etiquetas a nivel de imagen.
Por ejemplo, ¿hay algún tipo determinado de objetivo en algún lugar de la imagen? Este tipo de anotación es más simple que la anotación de marco de imagen y, a menudo, se puede obtener mediante una búsqueda de palabras clave.
La dificultad de una supervisión débil es detectar todos los objetivos sin ninguna información de posicionamiento durante el entrenamiento.
Aunque la dificultad de la anotación ha disminuido, todavía requiere una gran cantidad de imágenes y todavía es difícil cuando las imágenes son difíciles de obtener (como las imágenes médicas).

Varias técnicas de aprendizaje:

Transferir aprendizaje:
la diferencia con pocas tomas es que los datos de la nueva categoría no necesitan ser datos pequeños.
Por lo tanto, si el aprendizaje por transferencia se utiliza para el entrenamiento de muestras pequeñas, debe combinarse con el aprendizaje de muestras pequeñas.

Aprendizaje métrico:
aprendizaje de una incrustación, que puede entenderse como un vector de características. Las características de objetivos similares serán similares y tendrán una distancia menor, mientras que los objetivos diferentes estarán más separados.
Para aprender características de L2 con una distancia intraclase más baja y una distancia entre clases más alta, generalmente se utiliza la pérdida de triplete o su extensión.
La generalización de estas características es bastante buena y el modelo puede codificar nuevas categorías de objetivos sin necesidad de volver a entrenar.
En la etapa de inferencia del modelo, el modelo extraerá la incorporación del nuevo objetivo y luego las categorías se dividirán en las categorías de incorporación de características más similares.
Sin embargo, lo anterior solo menciona la clasificación. Para la detección del objetivo, también es necesario integrar la información de ubicación del objetivo.

Metaaprendizaje:
También llamado “aprender a aprender” para generalizar a nuevas tareas y nuevos datos.
Para muestras pequeñas de pocas tomas, el metaaprendizaje necesita aprender a distinguir categorías que no se fijan durante el entrenamiento,
por lo que necesita aprender a obtener la información requerida de manera más efectiva para que se pueda aprender información efectiva incluso cuando solo hay una. pequeño número de muestras.

Clasificación de métodos de detección de objetivos de muestras pequeñas.

En el documento, FSOD se divide en dos categorías, metaaprendizaje y aprendizaje por transferencia.
El metaaprendizaje se divide en rama única y rama dual.
rama dual: 2 entradas, consulta e imagen de soporte.
rama única: similar a la detección general modelos, pero al entrenar nuevas categorías o utilizar el aprendizaje métrico, la cantidad de parámetros que deben aprenderse se comprimirá.

Algunas estructuras de doble rama y el aprendizaje por transferencia se combinarán con la idea de aprendizaje métrico, por lo que para evitar confusiones, el artículo no trata el aprendizaje métrico como una categoría separada.
En cambio, los métodos SOTA se distinguen por estrategias y estructuras de capacitación.

La siguiente imagen muestra los métodos involucrados en la encuesta. Se puede ver que el campo de la detección de objetivos de muestras pequeñas aún es muy nuevo. La mayoría de los métodos solo se han propuesto en los últimos años y la mayoría utiliza aprendizaje por transferencia y meta de doble rama
. aprendiendo.
Insertar descripción de la imagen aquí

En términos de conjuntos de datos, muchos utilizan conjuntos de datos VOC y COCO.
Al evaluar, se utilizan los métodos K-shot y N-way, es decir, hay N categorías y K objetivos etiquetados en cada categoría.

conjunto de datos de COV

El conjunto de datos VOC contiene 20 categorías de anotaciones, el conjunto de entrenamiento VOC07 + 12 se usa para entrenamiento y el conjunto de prueba VOC07 se usa para pruebas.
En la detección de objetivos de muestras pequeñas, se utilizan comúnmente 3 conjuntos de segmentación de categorías, cada conjunto tiene 15 categorías básicas y 5 categorías novedosas.
Insertar descripción de la imagen aquí
El número K de muestras en cada categoría se establece en 1, 2, 3, 5,
10. En el proceso de verificación se utiliza AP50.
Aunque el número de muestras es limitado, las muestras específicas utilizadas no son fijas. Entonces, diferentes métodos utilizan diferentes objetivos.
Recientemente, parte de la literatura propuso que es necesario reexaminar el proceso de evaluación, utilizar diferentes categorías al azar y promediar los resultados de 30 ejecuciones.
También se propone que la evaluación no sólo se realice en el conjunto novedoso, sino también si la precisión del conjunto de datos base ha disminuido.

conjunto de datos COCO

Más desafiante que VOC, hay 80 categorías, incluidas las 20 categorías de VOC.
En la detección de objetivos de muestras pequeñas, 20 categorías de VOC generalmente se consideran nuevas y las 60 categorías restantes se consideran básicas. El
número de muestras se establece en 10 y 30. Sin embargo, algunos métodos se centran en muy pocas muestras (cada categoría 1~ 3 disparos)
La evaluación utiliza el método estándar de COCO, AP50~95. También hay AP50, AP75, AP pequeño, mediano y grande.
Algunos métodos también utilizan la recuperación.

De manera similar, el conjunto de datos COCO también encontró el problema de la evaluación de K-shot en diferentes objetivos, y los objetivos no estaban unificados.

Desviaciones de los estándares de evaluación

La detección de objetos incluye dos tareas: clasificación y localización. Sin embargo, algunos métodos de pocos intentos se desvían de este estándar. Crean una nueva tarea, un escenario de un solo intento. ¿Cuál es el problema con esto? Esto implica que se elimina la tarea de clasificación y es un entrenamiento unidireccional. El detector sólo necesita predecir si la imagen contiene el objeto y dónde ubicarlo. No hay tarea de clasificación. Por lo tanto, se recomienda utilizar la configuración N-way.
También hay una evaluación que se desvía del tema. ResNet ha sido entrenado con COCO en PNSD y FKSOD, y luego usa las categorías en el conjunto de datos de COCO como categorías novedosas. De hecho, las categorías novedosas ya no son novedosas.

Supongo que te gusta

Origin blog.csdn.net/level_code/article/details/132808285
Recomendado
Clasificación