MPDIoU: una pérdida para la regresión de cuadro delimitador eficiente y precisa: notas de estudio en papel

Más allá de GIoU/DIoU/CIoU/EIoU MPDIoU, permita que YOLOv7 y YOLACT aumenten

Comparación de indicadores sobre detección de objetivos: 

Dirección del artículo:  [2307.07662] MPDIoU: una pérdida para una regresión de cuadro delimitador eficiente y precisa (arxiv.org)

Resumen

La regresión de cuadro delimitador (BBR) se usa ampliamente en la detección de objetos y la segmentación de instancias, y es un paso importante en la localización de objetos. Sin embargo, la mayoría de las funciones de pérdida de regresión del cuadro delimitador existentes no se pueden optimizar cuando el cuadro predicho tiene la misma relación de aspecto que el cuadro etiquetado real, pero los valores de ancho y alto son completamente diferentes. Para resolver los problemas anteriores, el autor explora completamente las características geométricas de los rectángulos horizontales y propone una medida de comparación de similitud de cuadro delimitador basada en la distancia mínima del punto - MPDIoU, que incluye todos los factores relevantes considerados en la función de pérdida existente, como área superpuesta o no superpuesta, distancia del punto central y desviación en ancho y alto, al tiempo que simplifica el proceso de cálculo. Sobre esta base, los autores proponen una función de pérdida de regresión de cuadro delimitador basada en MPDIoU llamada L_{MPDIoU}. Los resultados experimentales muestran que la aplicación de la función de pérdida de MPDIoU a modelos de última generación de segmentación de instancias (p. ej., YOLACT) y detección de objetos (p. ej., YOLOv7) supera las funciones de pérdida existentes en conjuntos de datos PASCAL VOC, MS COCO y IIIT5k.

Introducción

        La detección de objetos y la segmentación de instancias son dos problemas importantes en la visión por computadora que han atraído mucho interés de investigación en los últimos años. La mayoría de los detectores de objetos de última generación (como la familia YOLO, Mask R-CNN, Dynamic R-CNN y DETR) se basan en módulos de regresión de cuadro delimitador (BBR) para determinar la ubicación de los objetos. Según este patrón, una función de pérdida bien diseñada es muy importante para el éxito de BBR. Hasta ahora, la mayoría de las funciones de pérdida BBR existentes se pueden dividir en dos categorías: 1. l_{n}Funciones de pérdida basadas en números 2. Funciones de pérdida basadas en intersección sobre unión (IoU).

        Sin embargo, la mayoría de las funciones de pérdida de BBR existentes tienen el mismo valor bajo diferentes resultados de predicción, lo que reduce la velocidad de convergencia y la precisión de la regresión del cuadro delimitador. Por lo tanto, considerando las ventajas y desventajas de la función de pérdida BBR existente, e inspirándose en las características geométricas del rectángulo horizontal, el autor intenta diseñar una nueva función de pérdida basada en la distancia mínima del punto, utilizando MPDIoU como nueva métrica, comparando la proceso de regresión de cuadro delimitador L_{MPDIoU}La similitud entre los cuadros delimitadores predichos y los cuadros delimitadores reales. El autor también proporciona una solución simple y fácil de implementar para calcular MPDIoU entre dos rectángulos alineados con el eje, de modo que pueda incluirse como un indicador de evaluación en los algoritmos más avanzados de detección de objetos y segmentación de instancias, y en algunos de los principales métodos de detección de objetos. Se probaron conjuntos de datos de reconocimiento de texto de escena y segmentación de instancias (como PASCAL VOC, MS COCO, IIIT5k y MTHv2) para verificar el rendimiento del MPDIoU propuesto por el autor.

Las contribuciones de este trabajo se resumen de la siguiente manera:

  1. El autor considera l_{n}las ventajas y desventajas de la pérdida basada en IoU existente y la pérdida de norma, y ​​propone una pérdida IoU basada en la distancia mínima del punto, es decir, para resolver el L_{MPDIoU}problema de la función de pérdida existente y obtener una velocidad de convergencia más rápida y más resultados de regresión precisos.

  2. Los autores realizan extensos experimentos sobre detección de objetos, reconocimiento de texto de escena a nivel de personaje y tareas de segmentación de instancias. Excelentes resultados experimentales verifican la superioridad de la pérdida MPDIoU propuesta. Los estudios de ablación detallados muestran el efecto de diferentes funciones de pérdida y ajustes de valores de parámetros.

El trabajo relacionado es presentar el IoU anterior (GIoU/DIoU/CIoU/EIoU), que se omite aquí. Si está interesado, puede ver aquí: Descripción general de pérdida de IoU, un resumen de varios IoU

Intersección sobre Unión con Distancia Mínima de Puntos

        Después de analizar las ventajas y desventajas de la serie IoU de funciones de pérdida, comencé a pensar en cómo mejorar la precisión y la eficiencia de la regresión de cuadro delimitador. Por lo general, use las coordenadas de los puntos superior izquierdo e inferior derecho para definir un rectángulo único. Inspirándose en las propiedades geométricas de los cuadros delimitadores, los autores diseñan una métrica novedosa basada en la proporción de intersección sobre unión denominada MPDIoU, que minimiza directamente las distancias de los puntos superior izquierdo e inferior derecho entre el cuadro delimitador previsto y el cuadro delimitador etiquetado real. .

El proceso de cálculo de MPDIoU se resume en el Algoritmo 1:

Al usar MPDIoU como una nueva métrica de pérdida, los autores esperan mejorar el efecto de entrenamiento de la regresión de cuadro delimitador, mejorar la velocidad de convergencia y la precisión de la regresión.

En resumen, el MPDIoU propuesto simplifica la comparación de similitud entre dos cuadros delimitadores y es adecuado para la regresión de cuadros delimitadores superpuestos o no superpuestos. Por lo tanto, en tareas de visión artificial 2D/3D, MPDIoU puede ser un buen sustituto de la proporción de intersección sobre unión como medida de todas las métricas de rendimiento. En este documento, los autores solo se enfocan en la detección de objetos 2D y la segmentación de instancias, donde MPDIoU se puede aplicar fácilmente como una función de métrica y pérdida.

MPDIoU como pérdida por regresión de cuadro delimitador

        En la fase de entrenamiento, al minimizar la siguiente función de pérdida, cada cuadro delimitador Bprd = [xprd, yprd, wprd, hprd]T predicho por el modelo se aproxima a su correspondiente cuadro delimitador de etiqueta verdadera Bgt = [xgt, ygt, wgt, hgt] T :

donde Bgt representa el conjunto de cuadros delimitadores etiquetados de verdad del terreno y \Thetarepresenta los parámetros del modelo de profundidad utilizado para la regresión. Las funciones de pérdida típicas L adoptan l_{n}normas, como la pérdida y Suave-{l_{1}}pérdida del error cuadrático medio (MSE), y estas funciones de pérdida se utilizan ampliamente en tareas como detección de objetos, detección de peatones, reconocimiento de texto de escena, detección de objetos 3D, estimación de pose y segmentación de instancias. . Sin embargo, estudios recientes han demostrado que la l_{n}función de pérdida basada en normas no es consistente con la relación métrica de intersección sobre unión (IoU) de evaluación, por lo que se propone una función de pérdida basada en IoU. Basado en la definición de MPDIoU en la sección anterior, el autor define la función de pérdida basada en MPDIoU de la siguiente manera:

Por lo tanto, todos los factores de la función de pérdida de regresión del cuadro delimitador existente pueden determinarse mediante las coordenadas de los 4 puntos. La fórmula de conversión es la siguiente: 

En la fórmula anterior, \izquierda |  C \ derecho |representa el área del rectángulo circunscrito más pequeño que cubre Bgt y Bprd, \izquierda (x_{c}^{gt},y_{c}^{gt} \derecha)y \left (x_{c}^{prd},y_{c}^{prd} \right )representa las coordenadas del punto central del cuadro delimitador de verdad del terreno y el cuadro delimitador previsto, respectivamente. {w_{gt}}y {h_{gt}}denote el ancho y la altura del cuadro delimitador de la verdad del suelo, {w_{prd}}y {h_{prd}}denote el ancho y la altura del cuadro delimitador previsto.

De las fórmulas (10)-(12), se puede encontrar que los factores considerados en todas las funciones de pérdida existentes pueden determinarse por las coordenadas del punto de la esquina superior izquierda y el punto de la esquina inferior derecha, como la desviación de no superposición área, distancia del punto central, ancho y alto, lo que significa que el autor propuesto L_{MPDIoU}no solo considera de manera integral, sino que también simplifica el proceso de cálculo.

De acuerdo con el Teorema 3.1, si el cuadro delimitador predicho y el cuadro delimitador de verdad fundamental tienen la misma relación de aspecto, entonces el cuadro delimitador predicho se encuentra dentro del cuadro delimitador de verdad fundamental con un valor más bajo que el caso en el que el cuadro delimitador previsto se encuentra fuera de la realidad fundamental L_{MPDIoU}. cuadro delimitador. Esta propiedad garantiza la precisión de la regresión del cuadro delimitador, que tiende a proporcionar cuadros delimitadores predichos con menos redundancia.

Teniendo en cuenta que el cuadro delimitador de verdad fundamental Bgt es un rectángulo con un área mayor que cero, es decir, Agt > 0. La condición (1) en el Algoritmo 2 y la condición (6) en el Algoritmo 2 aseguran que el área pronosticada Aprd y el área de intersección I no sean negativas, es decir, Aprd ≥ 0 e I ≥ 0, para ∀Bprd ∈ R4.

Por lo tanto, para cualquier cuadro delimitador predicho Bprd = (x1prd, y1prd, x2prd, y2prd) ∈ R4, su área de unión U > 0. Esto asegura que el denominador de la relación de intersección nunca sea cero para ningún valor de la salida prevista. Además, para cualquier valor de Bprd = (x1prd, y1prd, x2prd, y2prd) ∈ R4, su área de unión siempre es mayor o igual que el área de intersección, es decir, U ≥ I. Por lo tanto, L_{MPDIoU}siempre está acotado, es decir, 0 ≤  L_{MPDIoU} < 3, para ∀Bprd ∈ R4.

Cuando IoU = 0: Para la pérdida de MPDIoU, los autores tienen L_{MPDIoU} = 1 - MPDIoU = 1 + \frac{d_{1}^{2}}{d^{2}} + \frac{d_{2}^{2}}{d^{2}} -pagaré. En el caso de que Bgt y Bprd no se superpongan, es decir, IoU=0, la pérdida de MPDIoU se puede simplificar como L_{MPDIoU} = 1 - MPDIoU = 1 + \frac{d_{1}^{2}}{d^{2}} + \frac{d_{2}^{2}}{d^{2}}. En este caso, al minimizar L_{MPDIoU}, el autor en realidad está minimizando \frac{d_{1}^{2}}{d^{2}} + \frac{d_{2}^{2}}{d^{2}}. Este término es una medida normalizada entre 0 y 1, es decir 0\leq \frac{d_{1}^{2}}{d^{2}} + \frac{d_{2}^{2}}{d^{2}} < 2, .

experimento

        El autor realizó experimentos en varios conjuntos de datos. Los indicadores en el conjunto de prueba de VOC, como la imagen superior, han mejorado en comparación con varios otros IoU y los ejemplos de comparación en COCO:

Posteriormente, se compararon los resultados experimentales de la segmentación de instancias y el posicionamiento de texto de escena OCR, y L_{MPDIoU}se mejoraron los resultados.

LOC:

  

Segmentación de instancias:

Supongo que te gusta

Origin blog.csdn.net/athrunsunny/article/details/132052597
Recomendado
Clasificación