YOLOv5 tiene un total de 5 versiones de modelos de red y sus archivos de peso, a saber (n,s,m,l,x)
.
(La imagen a continuación es de la captura de pantalla de rendimiento del proyecto oficial de código abierto yolov5 en github).
Entre ellas, las estructuras del modelo de red n, s, m, l y x son exactamente iguales, y la diferencia radica en los parámetros. Los otros modelos n6, s6, m6, l6 y x6 son para detección de imágenes de mayor resolución.
Estructura de red
Este diagrama de estructura de red proviene del blogger de CSDN: Jiang Dabai . Citado aquí únicamente para registros de estudios.
Esta imagen muestra YOLO v 5 s YOLOv5sArquitectura del modelo de red de Y O L O v 5 s .
Columna vertebral
CSP-Darknet53
Cuello
SPPF + CSP-PAN
Cabeza
YOLOv3 Head
Predicciones de características de salida de tres tamaños, como (76, 76, 255), (38, 38, 255), (19, 19, 255) (76,76,255), (38,38,255), (19,19,255))( 76 ,76 ,255 ) ,( 38 ,38 ,255 ) ,( 19 ,19 ,255 ) , las distintas versiones son contradictorias.
Análisis clave
边界框优化
Basado en YOLOv4, bw = pw ∗ etw b_w=p_w*e^{t_w}bw=pagw∗mitw与bh = ph ∗ eth b_h=p_h*e^{t_h}bh=pagh∗mithVarianza bw = pw ∗ ( 2 ∗ σ ( etw ) ) 2 b_w=p_w*(2*\sigma(e^{t_w}))^2bw=pagw∗( 2∗s ( mitw) )2与bh = ph ∗ ( 2 ∗ σ ( eth ) ) 2 b_h=p_h*(2*\sigma(e^{t_h}))^2bh=pagh∗( 2∗s ( mith) )2. Utilice
\sigmaLa función σ tiene como objetivo limitartw t_wtwcon el t_hthrango de valores para evitar situaciones Nan.
数据增强
Los métodos de mejora de datos incluyen mosaico, transformación de la gama de colores HSV, rotación, escalado, inversión, traducción, corte, etc.
真实框与Anchor匹配
rw = wgtwatrh = hgthatrwmax = max ( rw , 1 rw ) rhmax = max ( rh , 1 rh ) rwmax = max ( rwmax , rhmax ) \begin{align} r_w&=\frac{w_{gt}}{w_{at} }\\ r_h&=\frac{h_{gt}}{h_{at}}\\ r_w^{max}&=max(r_w,\frac{1}{r_w})\\ r_h^{max}&= max(r_h,\frac{1}{r_h})\\ r_w^{max}&=max(r_w^{max},r_h^{max})\\ \end{align}rwrhrwmáx _rhmáx _rwmáx _=wuna twgt _=huna thgt _=máx ( r _w,rw1)=máx ( r _h,rh1)=máx ( r _wmáx _,rhmáx _)
donde wgt w_{gt}wgt _es el ancho de la caja real, wat w_{at}wuna tes el ancho del ancla, hgt h_{gt}hgt _es la altura de la caja real, hat h_{at}huna tes la altura del ancla.
( 3 ) ( 4 ) (3)(4)( 3 ) ( 4 ) Las dos ecuaciones se utilizan para medir la diferencia entre la caja real y el ancla. Si la diferencia entre las dos cajas es la más pequeña o las dos cajas son las más similares, entonces rhmax r_h^{max}rhmáx _rwmax r_w^{max}rwmáx _es 1.último (5)(5)( 5 ) , obtenga el valor máximo de diferencia del marco en altura y ancho. Este valor de diferencia se compara con el umbral dado. Si se cumple la condición del umbral, la coincidencia se considera exitosa; de lo contrario, falla. Este principio es similar al anterior que utiliza la coincidencia de pagarés.
损失函数
(v6.0 y versiones posteriores)
Pérdida = pérdida de posicionamiento del cuadro delimitador + pérdida de clasificación del objetivo + pérdida de CIoU (pérdida de confianza)
L oss = λ 1 L loc + λ 2 L cls + λ 3 L ciou Loss=\lambda_1L_{loc} + \lambda_2L_{cls}+\lambda_3L_{ciou}pérdida _=yo1lloc _+yo2lc l s+yo3lc i o u
Es decir,
el parámetro K es el número de mapas de características, S 2 S^2S2 es el número de celdas de la cuadrícula,BBB es el número de anclas.
Para equilibrar la pérdida de diferentes escalas (en el conjunto de datos de coco), para las tres capas de características de predicción {P 3 (objetivo pequeño, como 76 ∗ 76), P 4 (objetivo mediano, como 38 ∗ 38), P 5 (objetivo grande, como 19 ∗ 19 ) } \{P_3 (objetivo pequeño, como 76*76), P_4 (objetivo mediano, como 38*38), P_5 (objetivo grande, como 19*19) \}{
PAG3( Objetivo pequeño, como 76∗76 ) ,PAG4( Objetivo medio, como 38∗38 ) ,PAG5( Objetivo grande, como 19∗La pérdida CIOU objetivo en 19 )} adopta diferentes pesos: L ossciou = 4 ∗ L ciousmall + L cioumedium + 0.4 ∗ L cioularge Loss_{ciou}=4*L_{ciou}^{small}+L_{ciou}^{ medium }+0.4*L_{ciou}^{grande}pérdida _ _c i o u=4∗lc i o upequeño _ _+lc i o umedio _ _ _ _ _+0,4∗lc i o ugrande _ _ _ _
En la función de pérdida, para mejorar la precisión de los objetivos pequeños, se aumenta la pérdida de la predicción de objetivos pequeños.