【ICCV2023】ARS-DETR: Detección de objetos orientados sensibles con relación de aspecto con transformador

ARS-DETR: Detección de objetos orientados sensibles con relación de aspecto con transformador, ICCV2023

Papel: https://arxiv.org/abs/2303.04989

Código: https://github.com/httle/ARS-DETR

Interpretación: ARS-DETR: DETR en el campo de la teledetección (ICCV2023) - Zhihu (zhihu.com)

Resumen

Los métodos de detección de objetos existentes suelen utilizar la métrica AP50 para medir el rendimiento del modelo. El documento cree que la tolerancia de desviación angular de AP50 es relativamente grande, lo que no es adecuado para la detección de objetivos giratorios en esencia. Por lo tanto, el documento aboga por el uso de métricas de alta precisión, como AP75, para medir el rendimiento del modelo. (El detector de papel funciona mejor en AP75, pero no en AP50)

En este artículo, proponemos un detector de objetos giratorios sensible a la relación de aspecto basado en transformador, llamado ARS-DETR, que logra un rendimiento competitivo en la detección de objetos orientados de alta precisión. Específicamente:

  • Se propone un nuevo enfoque para la clasificación de ángulos , llamado Aspect Ratio-Aware Circular Smooth Labeling (AR-CSL), para suavizar las etiquetas de ángulos de una manera más razonable y descartar los hiperparámetros (como CSL) introducidos en trabajos anteriores.
  • Un módulo de atención deformable giratorio está diseñado para rotar los puntos de muestreo en los ángulos correspondientes, eliminando la desalineación entre las características regionales y los puntos de muestreo.
  • La pérdida angular se calcula utilizando un factor de peso dinámico según la relación de aspecto .

Introducción

AP50 es la métrica más utilizada en la detección orientada a objetos y muchos trabajos comparan el rendimiento en función de AP50. Sin embargo, el documento es escéptico: ¿AP50 refleja bien el rendimiento de los detectores de objetos direccionales? A través del análisis visual, los objetos con relaciones de aspecto pequeñas no son sensibles a la desviación angular, mientras que los objetos con relaciones de aspecto grandes son relativamente sensibles. Y el campo de la teledetección presta más atención al ángulo del marco giratorio.Comparado con el AP50, el AP75 puede medir mejor el ángulo del marco giratorio.

Aunque los puntos centrales de estas cajas están cerca del objetivo, los ángulos son bastante diferentes, pero el AP50 de estas cajas no está mal.

La figura 1 muestra una visualización de algunos detectores. Se puede encontrar que el punto central, la longitud y el ancho de algunos cuadros delimitadores están muy cerca del objeto, pero la desviación del ángulo es grande. Aun así, la mayoría de ellos seguirán dando positivo y alcanzarán un alto rendimiento en términos de AP50. Por lo tanto, esta anomalía ha llevado al documento a recomendar el uso de métricas más estrictas (como AP75) para evaluar el rendimiento y centrarse en una detección de objetos orientados de alta precisión más significativa.

La relación entre SkewIoU y la desviación angular bajo diferentes relaciones de aspecto, ar indica la relación de aspecto.

 La tendencia de variación de SkewIoU de cuadros delimitadores con diferentes relaciones de aspecto se divide claramente en dos tipos:

  • ar ≤ 1,5, figura b, cuando la relación de aspecto es inferior a 1,5, independientemente de la desviación del ángulo, SkewIoU siempre es superior a 0,5
  • ar > 0,5, figura c, cuando la relación de aspecto es superior a 1,5, SkewIoU decaerá rápidamente a medida que aumente la desviación del ángulo

En resumen, los objetos con relaciones de aspecto pequeñas no son sensibles a la desviación angular, mientras que los objetos con relaciones de aspecto grandes son relativamente sensibles.

 

Un detector con un pequeño espacio en AP50 muestra un espacio significativo en AP75 (-H significa convertir el resultado de la predicción en un rectángulo delimitador horizontal)

El campo de la detección remota presta más atención al ángulo del marco giratorio, y el AP75 puede medir mejor el ángulo del marco giratorio.

 

El ángulo, como parámetro único en la detección direccional de objetos, juega un papel crucial en la detección de alta precisión. El gran potencial de los métodos basados ​​en la clasificación para la detección de objetos orientados de alta precisión. Pero todavía hay algunos problemas, como ignorar por completo la correlación entre los ángulos y los cuadros delimitadores, introducir hiperparámetros (como el radio de la ventana en CSL [36]), etc. Por lo tanto, la precisión de la predicción del ángulo se ve obstaculizada hasta cierto punto.

DETR trata la detección de objetos como una tarea de predicción de conjuntos y asigna etiquetas a través de la coincidencia de gráficos bipartitos, lo que logra un rendimiento comparable al de los detectores de clasificación como Faster RCNN. Las variantes DETR existentes mejoran significativamente el rendimiento de detección y la velocidad de convergencia, lo que muestra el gran potencial de Transformer para la detección de objetos de alta precisión. Aunque se han propuesto algunos métodos de detección orientados a objetos basados ​​en DETR [4], todavía usan la regresión para predecir ángulos y no consideran el problema causado por la discontinuidad de los límites. Al mismo tiempo, predicen el ángulo de forma ingenua y no exploran cómo introducir la información del ángulo de la cama en DETR. Cómo usar DETR de forma más natural en la detección orientada a objetos sigue siendo un tema de investigación.

 

En este documento, proponemos una detección de objetos basada en DETR deformable sensible a la relación de aspecto, llamada ARS-DETR . Específicamente, la etiqueta de suavizado circular consciente de la relación de aspecto libre de hiperparámetros (AR-CSL) está diseñada para representar la relación de ángulos adyacentes de acuerdo con la relación de aspecto de los objetos. Teniendo en cuenta la sensibilidad del ángulo de diferentes objetos, AR-CSL utiliza el SkewioU de objetos con diferentes relaciones de aspecto bajo cada desviación de ángulo para suavizar las etiquetas de ángulo. Luego, también se propone un módulo de atención deformable rotado para incrustar los ángulos formados en el detector basado en DETR para alinear las características.
Finalmente, se adoptan la estrategia de coincidencia y pérdida consciente de la relación de aspecto , de modo que el entrenamiento del detector se puede ajustar dinámicamente, lo que puede reducir en gran medida la carga del entrenamiento del modelo. Extensos experimentos muestran que ARS-DETR es de hecho un excelente detector en la detección de objetos orientados de alta precisión en diferentes conjuntos de datos.

La contribución radica en:

  • Proporciona un resumen detallado del impacto del sesgo angular en la detección de objetos orientados y las deficiencias de las métricas actuales de detección de objetos orientados (como AP50), y recomienda el uso de métricas más estrictas (como AP 75) para evaluar el rendimiento de los modelos. centrándose más en la detección de objetos orientados de alta precisión.
  • Un nuevo método de clasificación de ángulos, llamado etiquetado de suavizado circular consciente de la relación de aspecto (AR-CSL), adopta el valor SkewIoU de objetos con diferentes relaciones de ángulo de visión en cada desviación de ángulo para suavizar las etiquetas de ángulo de una manera más razonable, mientras que el radio de la ventana Se elimina el hiperparámetro introducido en trabajos anteriores.
  • Se propone un módulo de atención rotacionalmente deformable incrustado con ángulos para alinear características, combinado con una nueva técnica de clasificación de ángulos (es decir, AR CSL), una estrategia de eliminación de ruido (DN) y ponderación consciente de la relación de aspecto (ARW) y coincidencia (ARM) para Mejorar aún más el rendimiento.
  • Amplios experimentos en tres conjuntos de datos públicos DOTA-V.0, DIOR-R y OHD-SJTU demuestran la efectividad del modelo propuesto. ARS-DETR logra un rendimiento de vanguardia en todos los conjuntos de datos en AP75.

Método ARS-DETR

 En lugar de utilizar una función de pérdida basada en la regresión, la predicción del ángulo se convierte en una tarea de clasificación, de modo que el problema de los límites desaparece naturalmente. CSL divide el ángulo en 180 categorías y toma la primera categoría de ángulo y la última categoría de ángulo como categorías de ángulo adyacentes, eliminando así la influencia de la discontinuidad de los límites. Luego, la función de ventana gaussiana se usa para suavizar, de modo que refleje la correlación entre categorías de ángulos adyacentes, de modo que tenga cierta tolerancia para los errores de estimación de ángulos.

CSL tiene dos problemas:

  • Función de etiqueta fija . CSL emplea una función gaussiana de radio fijo para aprender la correlación entre ángulos adyacentes, suavizando las etiquetas, independientemente de la relación de aspecto del objeto. Debido a que el sesgo de objetos con diferentes relaciones de aspecto varía mucho en ángulos adyacentes, la correlación entre ángulos adyacentes no debe ser fija.
  • Introducción de hiperparámetros . El radio de la función de la ventana afectará en gran medida el rendimiento final. Como hiperparámetro, determinar el valor óptimo para el radio es un problema complicado cuando el uso del conjunto de datos varía.

Etiqueta lisa AR-circular

La función de ventana fija y los hiperparámetros (es decir, el radio) dañan un poco la aplicabilidad de los detectores de objetos orientados basados ​​en clasificación. Esta sección aborda las cuestiones anteriores desde la perspectiva de la forma de codificación.
Teniendo en cuenta que SkewIoU puede reflejar dinámicamente la correlación entre ángulos adyacentes de diferentes objetos, se diseñó una técnica de etiqueta de suavizado circular consciente de la relación de aspecto (AR-CSL), utilizando SkewIoU en lugar de una función de ventana fija para suavizar las etiquetas, para un preprocesamiento de ángulo más razonable. Específicamente, el SkewIoU del cuadro delimitador debajo de cada desviación angular se calcula de acuerdo con la Ecuación 1, y el valor calculado se usa como la etiqueta del contenedor de categoría angular actual.

 AR-CSL tiene dos ventajas:

  • Función de etiqueta dinámica. Un valor de suavizado calculado dinámicamente en función de la relación de aspecto del objeto
  • Reducir los hiperparámetros. No se introducen hiperparámetros, lo que hace que el método sea más cómodo de usar.

Módulo de atención deformable girado

Dos formas de iterar información de ángulos en DETR. (a) Aunque la información del ángulo se actualiza iterativamente después de cada capa, no está incrustada en DETR. (b) En nuestro método, la información del ángulo se reemplazará con nuevos valores después de cada capa, y la información del ángulo ayudará a alinear las características.

 

  • Método ingenuo que solo agrega un parámetro de ángulo adicional en la cabeza para lograr la estimación del cuadro delimitador girado. Sin embargo, este enfoque conduce a una desalineación de las funciones en todo el detector, especialmente en su módulo de atención deformable.
  • El nuestro, el módulo de atención deformable giratorio, gira el punto de muestreo de acuerdo con la información del ángulo incrustado , de modo que el punto de muestreo esté alineado con la función. No hay un ángulo de refinamiento capa por capa, pero un nuevo ángulo después de cada capa es independiente. predicho.

La siguiente figura muestra un detector de orientación basado en DETR (método Naive) que solo agrega un parámetro de ángulo adicional en la cabeza para lograr la estimación del cuadro delimitador girado. Sin embargo, no incorpora información de ángulo en el detector para explotar el máximo potencial del detector. Este enfoque conduce a una desalineación de las características en el detector, especialmente en su módulo de atención deformable, como se muestra en la Fig. 6(a) y la Fig. 7(b).

(a) Usando un marco de referencia horizontal, los puntos de muestreo están restringidos dentro del marco de referencia (b) Usando un marco de referencia giratorio, los puntos de muestreo se ajustan al objetivo

Como se muestra en la Fig. 7 (a), los puntos de muestreo en el módulo de atención deformable se ajustarán de acuerdo con el marco de referencia correspondiente, de modo que los puntos de muestreo estén confinados dentro del marco de referencia y caigan dentro del objeto tanto como sea posible. Sin embargo, como se muestra en la Fig. 7(b), cuando el objeto es de tipo orientado, si todavía se usa el marco de referencia horizontal, los puntos de muestreo no se pueden alinear con precisión con el objeto. Con este fin, el documento diseña un módulo de atención de deformación giratorio, que gira los puntos de muestreo de acuerdo con la información del ángulo incrustado, de modo que los puntos de muestreo estén alineados con las características, como se muestra en la Figura 7(c) y la Figura 7(d). . La visualización de puntos de muestreo alineados también se muestra en la Fig. 6 (b). Además, el documento no refina el ángulo capa por capa, sino que predice de forma independiente un nuevo ángulo después de cada capa, como se muestra en la Figura 5(b).

Entrenamiento de eliminación de ruido

Para mejorar aún más el rendimiento del modelo basado en DETR, se adopta la estrategia de entrenamiento de eliminación de ruido (DN) de DINO. Sin embargo, hay una pequeña diferencia en el ángulo en el que se agrega el ruido θ0 al objeto. Define λ como una escala de ruido en lugar del método utilizado por las clases para cambiar aleatoriamente las etiquetas de clase a otras etiquetas.

 Relación de aspecto SensiblePonderación y coincidencia

Se modificó la función de pérdida de ángulo y el costo de coincidencia en DETR:

 Después de la modificación, los objetos con relaciones de aspecto grandes se combinan con bordes con ángulos más similares, y el cálculo de la pérdida de ángulo también aumentará los requisitos de precisión del ángulo. Por lo tanto, el modelo puede ajustar de manera flexible la estrategia de entrenamiento para objetos con diferentes relaciones de aspecto.

experimento

Experimento comparativo

 

 Visualización del efecto de detección:

experimento de ablación

 

Supongo que te gusta

Origin blog.csdn.net/m0_61899108/article/details/131915662
Recomendado
Clasificación