Lectura intensiva YOLOF [CVPR2021]

YOLOF

Solo te ves Característica de un nivel

1 anterior

El nombre completo de YOLOF es You Only Look One-level Feature (solo una capa de funciones), que es un artículo de detección de objetivos incluido en CVPR2021. Debido a que el algoritmo YOLO (v5s, v5l, etc.) se utilizó para estudiar la detección de objetivos de granularidad fina de las imágenes de teledetección, me interesó mucho el título del artículo, pero de hecho este artículo no tiene nada que ver con YOLO. pero basado en la red de pirámide de características (FPN) para hacer un trabajo de verificación teórica.
Este es en realidad uno de los aspectos más destacados de YOLOF. La exploración en profundidad de los principios habituales en trabajos anteriores ha dado lugar a conclusiones diferentes a nuestras expectativas, y puede mejorarse en función de nuevos descubrimientos.

Parece ordinario y extraño, pero es fácil pero difícil.

dirección de papel

https://arxiv.org/abs/2103.09460

código fuente de la tesis

https://github.com/megvii-modelo/YOLOF

2 Resumen e introducción

2.1 FPN

FPN tiene dos ventajas elogiadas por los investigadores: 1)fusión de características multiescala: Fusión de características multiescala, que puede fusionar características de baja resolución de alto nivel y alta resolución de bajo nivel para obtener una representación abstracta; 2)divide y conquistaras: Estrategia divide y vencerás para detectar objetos de diferentes escalas en diferentes mapas de características.
inserte la descripción de la imagen aquí

2.2 Experimentos de desacoplamiento

Gracias a los dos puntos anteriores, FPN ha hecho contribuciones sobresalientes a la detección de objetivos de una etapa y la detección de objetivos sin anclaje. Pero YOLOF señaló que la parte más exitosa de FPN radica en la estrategia divide y vencerás para los problemas de optimización, en lugar de la fusión de características de múltiples escalas que piensa la mayoría de los investigadores. El autor desvincula las dos partes de la fusión de funciones a escala múltiple y divide y vencerás mediante el diseño de experimentos :

Específicamente, FPN se considera un codificador de múltiples entradas y múltiples salidas (MiMo), que codifica características de múltiples escalas desde la red troncal y proporciona una representación de características para el decodificador, y lo combina con una sola entrada y múltiples salidas (SiMo), Se compararon y probaron codificadores de entrada múltiple y salida única (MiSo) y de entrada única y salida única (SiSo), y los resultados se muestran en la siguiente figura.

inserte la descripción de la imagen aquí

Las siguientes conclusiones se extraen mediante el diseño de experimentos comparativos: 1) Las estructuras de salida de ab y cd son de salida múltiple y única, respectivamente. La diferencia bajo la misma estructura de salida es solo la diferencia en la escala del mapa de características de entrada, que es, si hay fusión de características multiescala. Se puede ver en la comparación entre ab (o cd),La mejora que aporta la fusión multiescala no llega a 1mAP;2) Las estructuras de entrada de ac y bd son estructuras de entrada múltiple y entrada única respectivamente. La diferencia bajo la misma estructura de entrada es que la escala del mapa de características de salida es diferente, es decir, si hay un divide y vencerás estrategia para detectar objetos de diferentes escalas para obtener una salida multiescala. Se puede ver en la comparación entre ac (o bd),La mejora que trae la estrategia divide y vencerás supera los 10mAP

2.3 Conclusión del experimento de desacoplamiento

Creo que hemos descubierto un fenómeno sorprendente: el codificador SiMo logra casi el mismo rendimiento que el codificador MiMo, mientras que la estructura So tiene una caída de rendimiento muy grande. Estos experimentos muestran dos hechos: 1) El mapa de características C5 ya contiene información contextual para detectar objetos de diferentes escalas, razón por la cual SiMo funciona bien; 2) El beneficio que brinda la fusión de características multiescala es mucho menor que el de la división. y la estrategia de conquistar los ingresos, por lo que la fusión de características de múltiples escalas no es el punto clave de puntuación de FPN.

3 Análisis de costos

Como se mencionó anteriormente, FPN, como representante de la estructura MiMo, aplica con éxito la estrategia divide y vencerás a los problemas de optimización, pero el método de procesamiento de mapas de características multicapa inherente de FPN inevitablemente aumenta la carga computacional y de memoria. Entonces, el autor dividió la tarea de detección en tres partes basadas en RetinaNet: Backbone, Codificador, Decodificador y analizó cuantitativamente el codificador MiMo.

Use los tres componentes de Backbone, Encoder y Decoder para experimentar por separado y obtenga los siguientes resultados:
inserte la descripción de la imagen aquí

Los datos en el eje vertical izquierdo muestran que la sobrecarga de memoria generada por Backbone es la misma, peroLa estructura MiMo aporta una sobrecarga de memoria enorme al codificador y decodificador, mientras que la sobrecarga de memoria de la estructura SiMo es mucho menor.; Los datos en el eje vertical de la derecha muestran queLa velocidad de ejecución del modelo de la estructura MiMo también es significativamente menor que la del SiSo., el autor cree que el mapa de características de alta resolución C3 supone una carga para MiMo.

Dado que MiMo tiene una desventaja tan grande, naturalmente pensamos en optimizar la estructura de MiMo con referencia a las ventajas de SiMo para garantizar la alta velocidad y la alta eficiencia del detector mejorado Este es el método propuesto por el autor en la siguiente sección.

4 métodos

Impulsado por los objetivos anteriores, el autor trató de reemplazar MiMo con una estructura SiSo, pero este reemplazo no es fácil, porque los resultados experimentales anteriores han demostrado que el rendimiento se reducirá drásticamente después de reemplazar MiMo con SiSo. Para este resultado, el autor extrae las siguientes dos razones después de un análisis cuidadoso:

1)与C5特征图感受野匹配的目标尺度范围是有限的,阻碍了不同尺度目标的检测;
2)anchor生成策略造成正样本不均衡。接下来,作者针对这两个问题进行讨论并提出对应的解决方案。

4.1 Codificador dilatado

inserte la descripción de la imagen aquí

Los puntos verdes en la figura anterior representan varios tamaños de destino en el conjunto de datos, y las áreas rosadas representan el rango de tamaños de destino que las características pueden expresar de manera efectiva.

C5特征图虽然包含一定范围的尺度信息,但是尺度信息有限,如上图(a)所示;
如果使用空洞卷积(DilatedConv)代替原本的卷积核,则会出现尺度平移的问题,无法检测小尺度目标,如上图(b)所示;
作者提出了Dilated Encoder,该结构能够融合多尺度的感受野,从而能检测多种尺寸范围的目标,达到上图(c)所示的效果。

El codificador dilatado toma la salida de la función C5 de Backbone como entrada, el proceso específico: 1x1卷积(减少通道数目)->3x3卷积(精炼语义信息,这两个操作借鉴FPN)->4个连续的扩张率不相同的残差单元(通过调整扩张率的超参可以使得残差单元在one-level feature中包含多种感受野尺度)->融合不同尺度的特征(使得网络能够应对不同尺度的任务).

4.2 Coincidencia de uniformes

Positive anchorsLa definición de determina la dirección de optimización de la detección de objetivos. En el método de base de anclaje, los anclajes positivos se basan en el IoU entre el preanclaje y el gt-anchor. Por ejemplo, RetinaNet reconoce los preanclajes con un IoU superior a 0,5 como anclajes positivos. Esta estrategia se denomina coincidencia de Max-IoU.
inserte la descripción de la imagen aquí

En la estructura MiMo, el preanclaje se genera por separado en el mapa de características multinivel y los anclajes positivos se generan a través de IoU con el gt-anchor; pero cuando se adopta la estructura SiSo, el número de anclajes se reduce de 100k a 5k, lo que resulta en anclajes muy escasos. Como resultado, el anclaje gt a gran escala generará anclajes más positivos, lo que hará que el detector preste demasiada atención al anclaje a gran escala, lo que resultará en un desequilibrio de anclajes positivos.

Para resolver el desequilibrio de anclas positivas mencionado anteriormente, el autor propone una estrategia de coincidencia uniforme: 将每个gt-anchor的k个最近的anchor作为positive anchor, que garantiza que todas las casillas de destino se puedan emparejar uniformemente con el mismo número de anclas positivas. El equilibrio de anclas positivas asegura que todos los cuadros objetivo estén entrenados y contribuyan por igual.

5 YOLOF

Basado en las dos mejoras anteriores, el autor propone un marco de detección de objetivos simple que solo usa características de un nivel: YOLOF. Consta de tres partes principales: Backbone, Codificador, Decodificador.
inserte la descripción de la imagen aquí

BackboneEl autor utiliza el clásico ResNet y ResNeXt, y selecciona el mapa de funciones C5 como la salida de funciones de Backbone (el número de canales es 2048 y la tasa de reducción de resolución es 32), incluye dos partes: Proyector y Bloques residuales Encoder. para refinar la información de características de C5. Los bloques residuales se utilizan para obtener un campo receptivo a gran escala; Decodersimilar a RetinaNet, contiene dos cabezas paralelas para clasificación y regresión respectivamente. Además, el autor también realizó dos cambios en su estructura: 1) De acuerdo con el diseño de FFN en DETR, el número de capas convolucionales de las dos cabezas es diferente. 2) Según Autoassign, se agrega una predicción de objetividad implícita a cada cuadro de anclaje de la rama de regresión, y la confianza de clasificación final se obtiene multiplicando el resultado de la rama de clasificación y la puntuación de objetividad.

6 Experimento

6.1 Comparación con RetinaNet en diferentes situaciones de Backbone

inserte la descripción de la imagen aquí

Los resultados experimentales muestran que: 1) YOLOF ha logrado el mismo rendimiento que RetinaNet+, mientras que la velocidad de razonamiento es más rápida y la cantidad de cálculo es menor; 2) YOLOF ha logrado una puntuación de detección de objetivos multiescala de 47,1 mAP y ha logrado un rendimiento en Detección de objetivos a pequeña escala Puntuación sobresaliente de 31.8mAP.

6.2 Comparación basada en COCO2017 y DETR

inserte la descripción de la imagen aquí

Los resultados experimentales muestran que: 1) YOLOF supera a DETR en la detección de objetivos a pequeña escala; 2) YOLOF es casi 7 veces más rápido que DETR, lo que hace que YOLOF sea más adecuado como línea de base para tareas de detección de objetivos de características de un nivel.

7 Referencia

YOLOF:Solo miras la función de un nivel (CVPR 2021)
YOLOF解读
YOLOF:Solo miras la función de un nivel

ENCIMA

Supongo que te gusta

Origin blog.csdn.net/weixin_43427721/article/details/122313110
Recomendado
Clasificación