Función de pérdida de YOLOV5

La función de pérdida de yolov5 incluye:

pérdida de clasificación pérdida de clasificación

pérdida de localización pérdida de posicionamiento, el error entre el cuadro predicho y el cuadro real

pérdida de confianza pérdida de confianza, el objetivo de la caja

La función de pérdida total es la suma de las tres

 pérdida de clasificación + pérdida de localización + pérdida de confianza

También es posible multiplicar diferentes coeficientes de peso antes de las tres pérdidas para lograr resultados de diferentes proporciones.

La pérdida de confianza y la pérdida de clasificación en yolov5 se realizan con entropía cruzada binaria , mientras que la pérdida de posicionamiento se realiza con CIOU Loss

Predicción de clase

En las tareas tradicionales de clasificación múltiple, la función softmax generalmente se usa para convertir la puntuación predicha en una probabilidad de 1, que es un poco como un diodo.Si no es un animal, es una persona o es el fondo, lo que conducirá a una fuerte exclusividad .

En yolov3/v4/v5, al calcular la pérdida de clasificación para el entrenamiento, se usa entropía cruzada binaria para cada etiqueta para reemplazar la función softmax, que reduce la complejidad computacional y calcula la posibilidad de ingresar una etiqueta específica.La etiqueta de salida es el tipo de peatón + niño, y la puntuación de salida total puede ser superior a 1.

Pérdida de cuadro delimitador (pérdida de localización)

Pérdida de IoU

La pérdida de IoU anterior se usó para la pérdida del cuadro delimitador, y la relación de intersección entre el cuadro real y el cuadro predicho se usó para calcular la pérdida. Pero habrá un problema, es decir, cuando el cuadro real y el cuadro predicho no se superponen, el valor de IoU será 0 y no reflejará la distancia entre las dos formas, lo que hará que el gradiente sea 0 y no se puede optimizar.

Pérdida de GIOU

Más tarde, en CVPR2019, hubo una pérdida llamada GIoU, que introdujo el concepto de un cuadro delimitador mínimo. como se muestra en la imagen

  Encierre completamente el marco verde A y el marco caqui B, llamamos a este marco marco C

 Entonces la pérdida de GIoU es la intersección de las dos cajas y la relación IoU — (|C ÷ (A ∪ B)| ÷ |C|)

 Pero GIOU también tiene algunos problemas:

1. Cuando el marco de detección y el marco real parecen contener el fenómeno (uno cubre completamente al otro, no hay unión), GIoU degenera en IoU

2. Cuando dos cajas se cruzan, la convergencia es lenta en las direcciones horizontal y vertical

Pérdida de DIoU

En este momento, apareció otra pérdida DIoU

 En este momento, se introduce el concepto de la distancia d entre los puntos centrales de los dos marcos y la línea diagonal C

 b y bgt representan el punto central del cuadro de predicción y el punto central del cuadro gt. ρ2() representa la distancia euclidiana y c representa la longitud de la diagonal del rectángulo más pequeño que contiene estas dos cajas. De esta manera, para esta situación, la distancia desde el punto central también se ha convertido en un criterio, y también puede haber una dirección de optimización. Esto resuelve el problema de la convergencia lenta en las direcciones horizontal y vertical cuando dos cajas se cruzan.

En el artículo original, el autor explicaba el proceso de formación

 

La primera fila es GIoU y la segunda fila es DIoU. El marco verde en el centro es el marco real. En esta imagen, se puede ver claramente que GIoU necesita 400 veces para converger, mientras que DIoU solo necesita 120 veces, y el efecto de la convergencia de DIoU es mejor. La razón es que DIoU considera la distancia entre los puntos centrales de los dos marcos. Cuando la distancia entre los puntos centrales de los dos marcos es 0 o cercana a 0, se puede considerar que es un estado adecuado.

Pérdida CIoU 

CIoU añade otra condición de relación de aspecto para comparar la coincidencia de la relación de aspecto de las dos cajas

 El último αv es la parte aumentada en comparación con GIOU.

Resumir

DIoU tiene una velocidad de convergencia más rápida que IoU y GIoU.

CIoU considera más alcance, incluido el área superpuesta, la distancia del punto central y la relación de aspecto. De esta forma, la regresión del marco será más suficiente, por lo que la pérdida de marco rectangular predeterminada en Yolov5 es CIoU Loss.

referencia:

DIOU-pérdida

Supongo que te gusta

Origin blog.csdn.net/qq_35326529/article/details/128208740
Recomendado
Clasificación