Detección de objetos orientados en imágenes aéreas con vectores con reconocimiento de límites de caja (BBAVectors) para lograr la detección de objetivos del marco de rotación de imágenes de teledetección

Este artículo se interpretará en combinación con el artículo original y la comprensión personal.

Dirección del artículo: https://arxiv.org/pdf/2008.07043.pdf
Dirección del código: GitHub - yijingru/BBAVectors-Oriented-Object-Detection: [WACV2021] Detección de objetos orientados en imágenes aéreas con vectores que reconocen los límites de la caja

En primer lugar, ¿por qué la detección de objetivos de imágenes de teledetección ahora está interesada en utilizar marcos giratorios para detectar? Porque los objetos u objetivos en las imágenes de teledetección (aéreas) generalmente se muestran en cualquier dirección, y los objetivos están densamente dispuestos y es necesario realizar predicciones densas. ser logrado. La detección de objetivos de imágenes de teledetección a través del marco giratorio aliviará en gran medida la situación de subdetección y detección perdida causada por la predicción intensiva.

Algunos términos profesionales:

OBB: cuadro delimitador orientado
HBB: cuadro delimitador horizontal
RBB: cuadro delimitador girado (RBB se refiere a todos los cuadros delimitadores orientados excepto el cuadro delimitador horizontal)

Detección de objetos orientados en imágenes aéreas con vectores con reconocimiento de límites de cajaEste artículo propone la detección de objetos orientados en imágenes aéreas basada en vectores con reconocimiento de límites de caja.

Una breve introducción al artículo.

centro+wh+\thetaSobre la base de determinar el marco giratorio, este artículo propone vectores de reconocimiento de límites de caja (BBAVectors) para devolver el vector de conocimiento de límites del marco para generar el marco giratorio.

centro+wh+\thetaDesventajas:

(1) Un pequeño cambio de ángulo tiene poco efecto en la pérdida total durante el entrenamiento, pero puede provocar una gran diferencia de pagaré entre el cuadro predicho y el cuadro de verdad fundamental. Debido a que el índice de detección de cuadros de evaluación real usa IoU , y IoU y Smooth L1 no son equivalentes, varios cuadros de detección pueden tener el mismo tamaño de Smooth L1 Loss. Como se muestra en la Figura 1.
(2) Después de la rotación, aprenda siempre en un nuevo sistema de coordenadas
¿Qué?, lo cual es un desafío para la red para aprender conjuntamente todos los parámetros del cuadro. El método del marco giratorio que se muestra en la Fig. 2 (a).
 

Figura 1 El pagaré con el mismo valor de pérdida es muy diferente

El método propuesto por Box Border-Aware Vectors (BBAVectors) tiene las deficiencias anteriores:

(1) Todos los objetos orientados arbitrariamente comparten el mismo sistema de coordenadas , aprenden cuatro vectores en cuatro cuadrantes y comparten más información mutua cuando algunas características locales son borrosas y débiles . Figura 2(b).
(2) Agregue parámetros y sobre la base de (1) para resolver el problema de que es difícil capturar un cuadro que está casi alineado con el eje xy solo en (1). Figura 2(c).¿Qué?\alfa

Figura 2 Método del punto central (a) y método BBAVectors (b) (c)

 La Figura 2 ilustra: (a) Descripción del cuadro delimitador orientado (OBB) del método de línea base, llamado centro+wh+θ, donde w, h, θ son el ancho, alto y ángulo del OBB. Tenga en cuenta que w y h de OBB se miden en un sistema de coordenadas rotadas diferente para cada objeto; (b) el método propuesto, donde t, r, b, l son vectores con reconocimiento de límites de cuadro superior, derecho, inferior e izquierdo. Para todos los objetos orientados arbitrariamente, los vectores que tienen en cuenta los límites del cuadro se definen en los cuatro cuadrantes del sistema de coordenadas cartesiano; (c) muestra los casos de esquina donde los vectores están muy cerca del eje xy, lo que puede detectarse mediante el método HBB .

 Contribuciones de este artículo:
(1) Primero detecte el punto clave central del objeto y luego haga una regresión de los vectores con reconocimiento de límites del cuadro (BBAVectors) sobre esta base para capturar el cuadro delimitador orientado. Para todos los objetos orientados arbitrariamente, los vectores de percepción de los límites del cuadro se distribuyen en los cuatro cuadrantes del sistema de coordenadas cartesiano.
(2) Para aliviar la dificultad de aprender vectores en el caso de la esquina, los cuadros delimitadores orientados se clasifican además en cuadros delimitadores horizontales y cuadros delimitadores rotados.
(3) Las implementaciones muestran que aprender un vector con reconocimiento de límites de cuadro supera la predicción directa del ancho, alto y ángulo de un cuadro delimitador orientado.

Introducción de dos métodos

Figura 3 Diagrama de estructura de red BBAVectors

Ilustración que se muestra en la Figura 3: La arquitectura general del método y la descripción del cuadro delimitador orientado (OBB). Las imágenes de entrada cambian de tamaño a 608×608 antes de enviarse a la red. La arquitectura está construida sobre una red en forma de U. Durante el muestreo ascendente, los mapas de características se combinan mediante conexiones de omisión. El resultado de esta arquitectura consta de cuatro mapas: mapa de calor P, mapa de desplazamiento O, mapa de parámetros de caja B y mapa de orientación α. La ubicación del punto central se deduce del mapa de calor y del mapa de compensación. En el punto central, se aprende un vector con reconocimiento de límites de caja (BBAVector). La resolución del mapa de salida es 152×152. HBB se refiere al cuadro delimitador horizontal. RBB representa todos los cuadros delimitadores orientados excepto HBB. Los símbolos t, r, b, l se refieren a los vectores superior, derecho, inferior e izquierdo del vector BBA, nosotros y él somos el ancho y alto exterior del OBB. El OBB decodificado se muestra en el cuadro delimitador rojo.

1. Red de extracción de características

La capa convolucional 1-capa convolucional 5 de ResNet101 se utiliza como la red troncal del modelo. Primero, la imagen de detección remota se ajusta a un tamaño de 608 × 608 y se envía a la red ResNet101, y luego las características de la imagen de salida se cambian de 608 × 608 × 3 a 152 × 152 × C después de una reducción de resolución de 4 veces, donde C representa el número de canales de salida convolucionales. Luego, después de cuatro veces de reducción de resolución y tres veces de aumento de resolución, se genera un mapa de características con un tamaño de 152 × 152 × 256.

Divida el mapa de características obtenido de 152 × 152 × 256 Xen cuatro ramas y obtenga los parámetros correspondientes respectivamente:
(1) Después de que el mapa de características Xse somete a una convolución de 3 × 3 y una convolución de 1 × 1, los 256 canales se reducen a N canales, Donde N es el número de categorías contenidas en el mapa de características;
(2) Después de que el mapa de características Xse somete a una convolución de 3 × 3 y una convolución de 1 × 1, los 256 canales se reducen a 2 canales y el valor de desviación (x, y) del se obtiene el punto central;
(3) El mapa de características Xse somete a dos convoluciones de 7 × 7, reduciendo los 256 canales a 10 canales, aprendiendo los valores vectoriales de los cuatro cuadrantes y el marco de detección ¿Qué?, un total de 10 parámetros;
(4) El mapa de características Xse somete a una convolución de 3 × 3. Convoluciona con 1 × 1, los 256 canales se reducen a 1 canal y se obtienen los parámetros para juzgar si se usa HBB o RBB \alfa.

2. Mapa de calor (utilizado para localizar puntos clave y puntos centrales del objetivo)

Los mapas de calor se utilizan a menudo para localizar puntos clave específicos en una imagen de entrada, y este artículo utiliza mapas de calor para detectar los puntos centrales de objetos orientados arbitrariamente en imágenes aéreas. El mapa de calor utilizado en este artículo tiene K canales y cada canal corresponde a una categoría de un objeto. El mapeo en cada canal se pasa a través de una función sigmoidea. Considere el valor previsto del mapa de calor en un punto central particular como la confianza de la detección de objetos.

Suponiendo que c=(c_{x},c{_{y}})es el punto central del cuadro delimitador dirigido, Cse coloca un gaussiano 2D alrededor de cada punto central para formar un mapa de calor de verdad fundamental, estableciendo así la posición del punto central, entre ellos, cómo operar el gaussiano específicamente, y la pérdida del límite no se explicará en detalle Habilidades básicas muy profundas, para facilitar la comprensión de cómo establecer el punto central a través de Gauss, consulte la Figura 4 a continuación.

La Figura 4 utiliza un ajuste de superficie gaussiano para determinar el punto central, y el punto central es un número entero.

3. Desviación del punto central ( para compensar la diferencia entre el punto central del número de punto flotante cuantificado y el punto central del número entero )

Extraiga el punto máximo del mapa de calor previsto P como la posición del punto central del objeto. Estos puntos centrales Cson números enteros. Sin embargo, reducir la escala de un punto de la imagen de entrada al mapa de calor de salida produce un flotador. Para compensar la diferencia entre el punto central de punto flotante cuantificado y el punto central entero, prediga un mapa de compensación tal que la diferencia directa entre el punto central del número de punto flotante escalado y el punto central entero cuantificado sea menor, garantizando así que el punto central obtenido por el mapa de calor más preciso.

El desplazamiento entre el punto central flotante del escalado de definición y el punto central de cuantificación es:

o=(\frac{\bar{c_{x}}}{s}-\left \lfloor \frac{\bar{c_{x}}}{s} \right \rfloor,\frac{\bar{c_ {y}}}{s}-\left \lfloor \frac{\bar{c_{y}}}{s} \right \rfloor)

Optimice el desplazamiento mediante la función de pérdida suave L1.

4. Parámetro del cuadro

Para abordar centro+wh+\thetalas siguientes desventajas de este método:
(1) Un pequeño cambio de ángulo tiene un impacto marginal en la pérdida total en el entrenamiento, pero puede causar una gran diferencia de pagarés entre el cuadro predicho y el cuadro de verdad del terreno.
(2) Para cada objeto, la suma de sus OBB wse mide en un sistema de coordenadas giratorio separado hen un ángulo con respecto al eje y . \thetaEs un desafío para la red aprender conjuntamente los parámetros de cuadro de todos los objetos.
Proponga utilizar vectores que tengan en cuenta los límites de la caja para describir los OBB.

La propuesta de BBAVector: (1) Contiene vectores arriba, derecha , abajo e izquierda
desde el punto central del objeto , y estos cuatro parámetros vectoriales se distribuyen en los cuatro cuadrantes del sistema de coordenadas cartesianas. Todos los objetivos en cualquier dirección comparten el mismo sistema de coordenadas, lo que facilitará la transferencia mutua de información del objetivo y así mejorará la capacidad de generalización del modelo. (2) Para facilitar el intercambio de más información mutua cuando algunas características locales son vagas y débiles, se diseñan intencionalmente cuatro vectores en lugar de solo configurar arriba y abajo o derecha e izquierda .trbyo
tbryo

 El parámetro del cuadro se define como b=[t,r,b,l,w_{e},h_{e}], donde los vectores arriba t, derecha r, abajo be izquierda yoson vectores BBAV nosotros}y él}es el tamaño del cuadro horizontal exterior de un OBB. Por lo tanto, un total de 10 parámetros se componen de 2 × 4 parámetros de cuatro vectores y nosotros}dos parámetros. él}Estos 10 parámetros corresponden a los 10 canales aprendidos por la tercera rama en la Figura 3, que representan 10 parámetros. Siga utilizando la pérdida suave de L1 para optimizar los parámetros.

 5. Determinación de la dirección  de orientación .

Para el caso en el que el objeto está casi alineado con el eje xy, es decir, la dirección del objetivo es horizontal o vertical a la altura del sistema de coordenadas cartesianas, no hay necesidad de detectar el marco giratorio y RBB también provocará una falla en la detección. como se muestra en la Figura 5 (b), la Figura 5 (c) es el ensayo HBB utilizado.

Figura 5 Imagen de entrada (a) y detección de RBB (b) y efecto de detección de HBB (c)

 La razón por la que no se puede utilizar RBB para detectar objetos sin cambio de ángulo es que en el límite del cuadrante, el tipo de vector es difícil de distinguir. Para resolver este problema, dividimos OBB en dos categorías y las tratamos por separado. Los dos tipos de cuadros son HBB y RBB, donde RBB involucra todos los cuadros delimitadores girados excepto los cuadros horizontales. El beneficio de esta estrategia de clasificación es que convierte el caso de ángulo pequeño en el caso horizontal, que es fácil de manejar. Cuando la red encuentra una situación de esquina, la categoría de dirección y el tamaño externo pueden ayudar a la red a capturar OBB preciso.

Por lo tanto, se define un parámetro \alfa, que se aprende mediante convolución de la cuarta rama en la Figura 3.
Cree un parámetro de clase de dirección \alfa, definido como:

\hat{\alpha}=\left\{\begin{matrix}1(RBB)\rightarrow IOU(OBB,HBB)<0.95 &&\\0(HBB)\rightarrow en caso contrario&&\end{matrix}\right.

 Cuando la unión cruzada entre el cuadro delimitador orientado (OBB) y el cuadro delimitador horizontal (HBB) es menor que 0,95, se utiliza el cuadro delimitador girado RBB para la detección, y cuando es mayor o igual a 0,95, el cuadro delimitador horizontal HBB se utiliza para la detección y pérdida binaria de entropía cruzada para la optimización del entrenamiento.

 Tres resultados experimentales

 El conjunto de datos DOTA y el conjunto de datos HRSC2016 se utilizan para la verificación experimental.

El mapa de resultados de implementación según el conjunto de datos DOTA alcanza 75,36.

 En el conjunto de datos HRSC2016, los resultados obtenidos se encuentran en el mapa 88.6.

 Cuatro conclusiones

Se propone un método de detección orientado a objetos basado en vectores que reconocen los límites de la caja y la detección del punto central. El método es de una sola etapa y no contiene cajas de anclaje. En comparación con los métodos de referencia que aprenden directamente el ancho, la altura y el ángulo de los cuadros delimitadores orientados, el método propuesto basado en vectores que reconocen los límites de los cuadros funciona mejor en la captura de cuadros delimitadores orientados. Los resultados de los conjuntos de datos HRSC2016 y DOTA muestran que el método propuesto supera al de última generación.

Este artículo se centra en la interpretación de los métodos y principios adoptados. Para obtener resultados experimentales detallados, consulte el documento directamente. Si tiene alguna pregunta, comuníquese en el área de comentarios. ! !

Supongo que te gusta

Origin blog.csdn.net/weixin_42715977/article/details/130407821
Recomendado
Clasificación