Análisis del algoritmo YOLOv5 para la detección de objetivos.

YOLOv5 tiene un total de 5 versiones de modelos de red y sus archivos de peso, a saber (n,s,m,l,x).
(La imagen a continuación es de la captura de pantalla de rendimiento del proyecto oficial de código abierto yolov5 en github).
Insertar descripción de la imagen aquí
Entre ellas, las estructuras del modelo de red n, s, m, l y x son exactamente iguales, y la diferencia radica en los parámetros. Los otros modelos n6, s6, m6, l6 y x6 son para detección de imágenes de mayor resolución.

Estructura de red

Este diagrama de estructura de red proviene del blogger de CSDN: Jiang Dabai . Citado aquí únicamente para registros de estudios.
Insertar descripción de la imagen aquí
Esta imagen muestra YOLO v 5 s YOLOv5sArquitectura del modelo de red de Y O L O v 5 s .

Columna vertebral

CSP-Darknet53

Cuello

SPPF + CSP-PAN
Insertar descripción de la imagen aquí

Cabeza

YOLOv3 Head
Predicciones de características de salida de tres tamaños, como (76, 76, 255), (38, 38, 255), (19, 19, 255) (76,76,255), (38,38,255), (19,19,255))( 76 ,76 ,255 ) ,( 38 ,38 ,255 ) ,( 19 ,19 ,255 ) , las distintas versiones son contradictorias.


Análisis clave

边界框优化
Basado en YOLOv4, bw = pw ∗ etw b_w=p_w*e^{t_w}bw=pagwmitwbh = ph ∗ eth b_h=p_h*e^{t_h}bh=paghmithVarianza bw = pw ∗ ( 2 ∗ σ ( etw ) ) 2 b_w=p_w*(2*\sigma(e^{t_w}))^2bw=pagw( 2s ( mitw) )2bh = ph ∗ ( 2 ∗ σ ( eth ) ) 2 b_h=p_h*(2*\sigma(e^{t_h}))^2bh=pagh( 2s ( mith) )2. Utilice
\sigmaLa función σ tiene como objetivo limitartw t_wtwcon el t_hthrango de valores para evitar situaciones Nan.

数据增强
Los métodos de mejora de datos incluyen mosaico, transformación de la gama de colores HSV, rotación, escalado, inversión, traducción, corte, etc.

真实框与Anchor匹配

rw = wgtwatrh = hgthatrwmax = max ( rw , 1 rw ) rhmax = max ( rh , 1 rh ) rwmax = max ( rwmax , rhmax ) \begin{align} r_w&=\frac{w_{gt}}{w_{at} }\\ r_h&=\frac{h_{gt}}{h_{at}}\\ r_w^{max}&=max(r_w,\frac{1}{r_w})\\ r_h^{max}&= max(r_h,\frac{1}{r_h})\\ r_w^{max}&=max(r_w^{max},r_h^{max})\\ \end{align}rwrhrwmáx _rhmáx _rwmáx _=wuna twgt _=huna thgt _=máx ( r _w,rw1)=máx ( r _h,rh1)=máx ( r _wmáx _,rhmáx _)
donde wgt w_{gt}wgt _es el ancho de la caja real, wat w_{at}wuna tes el ancho del ancla, hgt h_{gt}hgt _es la altura de la caja real, hat h_{at}huna tes la altura del ancla.

( 3 ) ( 4 ) (3)(4)( 3 ) ( 4 ) Las dos ecuaciones se utilizan para medir la diferencia entre la caja real y el ancla. Si la diferencia entre las dos cajas es la más pequeña o las dos cajas son las más similares, entonces rhmax r_h^{max}rhmáx _rwmax r_w^{max}rwmáx _es 1.último (5)(5)( 5 ) , obtenga el valor máximo de diferencia del marco en altura y ancho. Este valor de diferencia se compara con el umbral dado. Si se cumple la condición del umbral, la coincidencia se considera exitosa; de lo contrario, falla. Este principio es similar al anterior que utiliza la coincidencia de pagarés.

损失函数(v6.0 y versiones posteriores)
Pérdida = pérdida de posicionamiento del cuadro delimitador + pérdida de clasificación del objetivo + pérdida de CIoU (pérdida de confianza)
L oss = λ 1 L loc + λ 2 L cls + λ 3 L ciou Loss=\lambda_1L_{loc} + \lambda_2L_{cls}+\lambda_3L_{ciou}pérdida _=yo1lloc _+yo2lc l s+yo3lc i o u
Es decir, Insertar descripción de la imagen aquí
el parámetro K es el número de mapas de características, S 2 S^2S2 es el número de celdas de la cuadrícula,BBB es el número de anclas.

Para equilibrar la pérdida de diferentes escalas (en el conjunto de datos de coco), para las tres capas de características de predicción {P 3 (objetivo pequeño, como 76 ∗ 76), P 4 (objetivo mediano, como 38 ∗ 38), P 5 (objetivo grande, como 19 ∗ 19 ) } \{P_3 (objetivo pequeño, como 76*76), P_4 (objetivo mediano, como 38*38), P_5 (objetivo grande, como 19*19) \}{ PAG3( Objetivo pequeño, como 7676 ) ,PAG4( Objetivo medio, como 3838 ) ,PAG5( Objetivo grande, como 19La pérdida CIOU objetivo en 19 )} adopta diferentes pesos: L ossciou = 4 ∗ L ciousmall + L cioumedium + 0.4 ∗ L cioularge Loss_{ciou}=4*L_{ciou}^{small}+L_{ciou}^{ medium }+0.4*L_{ciou}^{grande}pérdida _ _c i o u=4lc i o upequeño _ _+lc i o umedio _ _ _ _ _+0,4lc i o ugrande _ _ _ _
En la función de pérdida, para mejorar la precisión de los objetivos pequeños, se aumenta la pérdida de la predicción de objetivos pequeños.

Supongo que te gusta

Origin blog.csdn.net/qq_44116998/article/details/128451800
Recomendado
Clasificación