Algoritmo de detección de objetivos de la serie YOLO - PP-YOLOE

Catálogo de algoritmos de detección de objetivos de la serie YOLO - enlace al artículo


Este artículo resume:

  1. Este artículo se basa en el método exitoso de YOLOX y lo optimiza sobre la base de PP-YOLOv2, utilizando el modo sin anclaje, una estructura de columna y cuello más potente, equipado con CSPRepResStage, ET-head y algoritmo dinámico de asignación de etiquetas TAL, etc.;
  2. PP-YOLOE evita operaciones como la convolución deformable y Matrix NMS para admitir una mejor implementación en varios hardware.

Resumen de los puntos de conocimiento de aprendizaje profundo

Enlace de columna:
https://blog.csdn.net/qq_39707285/article/details/124005405

此专栏主要总结深度学习中的知识点,从各大数据集比赛开始,介绍历年冠军算法;同时总结深度学习中重要的知识点,包括损失函数、优化器、各种经典算法、各种算法的优化策略Bag of Freebies (BoF)等。



Algoritmo de detección de objetivos de la serie YOLO-PP-YOLOE
2022.3.30 PP-YOLOE:《PP-YOLOE:PP-YOLOE: Una versión evolucionada de YOLO》

1. Revisión de PP-YOLOv2

Los principales puntos de función de PP-YOLOv2 incluyen:

  • Red troncal: ResNet50-vd con convolución variable
  • Mástil: PAN con capa SPP y DropBlock
  • Cabeza: cabeza ligera consciente de IoU
  • La función de activación ReLU se usa en la columna vertebral y la función de activación Mish se usa en el cuello.
  • De acuerdo con YOLOv3, PP-YOLOv2 solo asigna un ancla por objetivo GT
  • Además de la pérdida de clasificación, la pérdida de regresión y la pérdida de objetividad, PP-YOLOv2 también utiliza la pérdida de IoU y la pérdida consciente de IoU para mejorar el rendimiento.
  • Para obtener más detalles, consulte el artículo PP-YOLOv2

2 Mejora de PP-YOLOE

2.1 Sin anclaje

  El modo ancla utilizado en PP-YOLOv2 introduce muchos parámetros y requiere diferentes configuraciones manuales en diferentes conjuntos de datos.Es muy complicado expandirse a otros conjuntos de datos, por lo que se incluye en PP-YOLOE Cambio a modo sin ancla.

  Después de hacer referencia a FCOS (colocar un ancla en cada píxel), establecemos límites superior e inferior para los tres cabezales de detección para asignar GT a los mapas de características correspondientes. Luego, se calcula el centro del cuadro delimitador para seleccionar el píxel más cercano como una muestra positiva. Con referencia a la serie YOLO, el vector 4D predicho (x, y, w, h) se usa para la regresión. Los resultados experimentales se muestran en la Tabla 2. Esta modificación hace que el modelo sea un poco más rápido, pero pierde 0.3AP. Aunque los límites superior e inferior se establecen cuidadosamente de acuerdo con el tamaño del ancla de PP-YOLOv2, todavía hay algunas inconsistencias sutiles en los resultados de la asignación entre los enfoques basados ​​en ancla y sin ancla, lo que puede conducir a una pérdida de precisión.
inserte la descripción de la imagen aquí

2.2 Columna vertebral y cuello

inserte la descripción de la imagen aquí
  Al combinar la conexión residual y la conexión densa, se propone un nuevo RepResBlock para la columna vertebral y el cuello.

  En referencia a TreeBlock, RepResBlock se muestra en la Figura 3(b) durante la fase de entrenamiento y en la Figura 3(c) durante la fase de inferencia.
Primero, TreeBlock se simplifica (como se muestra en la Figura 3(a)), y luego la operación de concatenación se reemplaza por una operación de suma de elementos, porque RMNet muestra que los resultados de estas dos operaciones son similares hasta cierto punto, por lo que, en el etapa de inferencia, el parámetro pesado RepResBlock en el bloque residual básico utilizado por ResNet-34 al estilo de RepVGG.

  Use RepResBlock para construir la columna vertebral y el cuello. Similar a ResNet, la columna vertebral se denomina CSPRepResNet y contiene un tallo que consta de tres capas convolucionales y cuatro etapas posteriores apiladas por RepResBlock, como se muestra en la Figura 3(d). En cada etapa, se utilizan conexiones parciales entre etapas para evitar un gran número de
capas convolucionales de 3 × 3. La capa ESE (Effective Squeeze and Extraction) también se usa para aplicar la atención del canal en cada CSPRepResStage al construir la red troncal.

  Después de PP-YOLOv2, use RepResBlock y CSPRepResStage para construir el cuello. A diferencia de la columna vertebral, el acceso directo en RepResBlock y la capa ESE en CSPRepResStage se eliminan en el cuello.

  Al igual que YOLOv5, este documento utiliza el coeficiente de ancho α y el coeficiente de profundidad β para escalar la columna vertebral y el cuello básicos. Por tanto, se pueden obtener una serie de redes de detección con diferentes parámetros y costes computacionales. El ancho de la columna vertebral se establece en [64, 128, 256, 512, 1024], la profundidad de la columna vertebral se establece en [3, 6, 6, 3] y el ancho y la profundidad del cuello se establecen en [ 192, 384, 768] y 3 respectivamente. La Tabla 1 muestra las especificaciones del multiplicador de ancho α y el multiplicador de profundidad β para diferentes modelos. Como se muestra en la Tabla 2, dichas modificaciones pueden mejorar el rendimiento de AP entre un 0,7 % y un 49,5 % de AP
inserte la descripción de la imagen aquí

2.3 Aprendizaje de alineación de tareas (TAL)

  SimOTA se utiliza en YOLOX como una estrategia de asignación de etiquetas para mejorar el rendimiento. Sin embargo, para superar aún más la desalineación de la clasificación y la localización, TOOD propone el aprendizaje de alineación de tareas (TAL), que consiste en la asignación dinámica de etiquetas y la pérdida de alineación de tareas. La asignación de etiquetas dinámicas implica conciencia de predicción/pérdida. Basado en predicciones, asigna un número dinámico de anclas positivas a cada verdad GT. Al alinear explícitamente las dos tareas, TAL puede lograr simultáneamente la puntuación de clasificación más alta y los cuadros delimitadores más precisos.

  Para la pérdida de alineación de tareas, TOOD usa t normalizado, es decir, t^ para reemplazar el objetivo perdido, que toma el IoU más grande en cada instancia como normalización. La entropía cruzada binaria (BCE) para la clasificación se puede reescribir como:
inserte la descripción de la imagen aquí
  Este documento utiliza diferentes estrategias de asignación de etiquetas para estudiar el rendimiento. Este experimento se lleva a cabo en el modelo modificado anterior, que utiliza CSPRepResNet como columna vertebral. Como se muestra en la Tabla 3, TAL logra el mejor desempeño de 45.2% AP. Usamos TAL en lugar de la asignación de etiquetas al estilo FCOS y obtenemos una mejora del 0,9 % de AP (50,4 % de AP), como se muestra en la Tabla 2.
inserte la descripción de la imagen aquí

2.4 Jefe eficiente alineado con tareas (ET-head)

  El conflicto entre las tareas de clasificación y localización es un problema bien conocido en la detección de objetos. Las soluciones correspondientes se brindan en muchos documentos. Por ejemplo, el cabezal de desacoplamiento de YOLOX se basa en la experiencia de la mayoría de los detectores de una y dos etapas, y se aplica con éxito al modelo YOLO para mejorar la precisión. Sin embargo, el desacoplamiento de los cabezales puede hacer que las tareas de clasificación y localización sean separadas e independientes, y carecer de un aprendizaje específico de la tarea.

inserte la descripción de la imagen aquí
  Este documento mejora la cabeza y propone una cabeza ET que apunta a la velocidad y precisión. Como se muestra en la Figura 2, ESE se usa para reemplazar la atención de la capa en TOOD, simplificar la alineación de la rama de clasificación con el atajo y reemplazar la alineación de la rama de regresión con una capa de pérdida focal distribuida (DFL).

  Para el aprendizaje de las tareas de clasificación y localización, se seleccionan la pérdida varifocal (varifocal loss, VFL) y la pérdida focal de distribución (distribution focal loss, DFL) respectivamente. Para el VFL de , a diferencia de la pérdida focal de calidad (quality focal loss, QFL) de , VFL utiliza la puntuación objetivo para ponderar la pérdida de muestras positivas. Esta implementación hace que la contribución de las muestras positivas con un alto IoU sea relativamente grande en la pérdida. Esto también hace que el modelo preste más atención a las muestras de alta calidad durante el entrenamiento, en lugar de las muestras de baja calidad. Lo mismo es que ambos usan el puntaje de clasificación IoU-aware (IoU-aware Classification Score, IACS) como objetivo de predicción. Esto aprende de manera eficiente una representación conjunta de puntajes de clasificación y estimaciones de calidad de localización, logrando un alto acuerdo entre el entrenamiento y la inferencia. Para DFL, con el fin de resolver el problema de la representación inflexible del cuadro delimitador, algunos artículos proponen utilizar una distribución general para predecir los cuadros delimitadores. La función de pérdida de nuestro modelo es la siguiente:
inserte la descripción de la imagen aquí
  donde t denota el puntaje objetivo normalizado, consulte la Ecuación (1). Como se muestra en la Tabla 2, ET-head logra una mejora de AP del 0,5 % y alcanza el 50,9 % de AP.

3. Conclusión

  Este documento realiza algunas actualizaciones de PPYOLOv2, incluida la arquitectura backbone-neck escalable, el cabezal de alineación de tareas eficiente, la estrategia de asignación de etiquetas avanzada y la función de pérdida de destino precisa, todo lo cual forma PP-YOLOE. Al mismo tiempo, se proponen modelos s/m/l/x, que pueden cubrir diferentes escenarios en la práctica.

Supongo que te gusta

Origin blog.csdn.net/qq_39707285/article/details/128340341
Recomendado
Clasificación