prefacio

Lo presentamos en la publicación de blog anterior Focal Loss, y el principio es relativamente simple. Si no lo entiende, puede saltar a la publicación de blog anterior para obtener más información. Introducción a la Pérdida Focal . Echemos un vistazo a la fuente de esta publicación de blog Focal Loss: Pérdida focal para la detección de objetos densosRetainNet , este documento propone una red one-stageque ha sido superada por la red two-stage.

1. Red RetainNet

Veamos primero el rendimiento RetainNet, y se puede ver que es muy superior Faster R-CNNa la red. Echemos un vistazo a la estructura de la red
inserte la descripción de la imagen aquí
nuevamente : podemos ver que se adopta una estructura similar , con tres diferencias principales. Para aquellos que no lo saben, pueden saltar a mi publicación de blog anterior ( introducción a la red FPN ):RetainNet

RetainNetFPNFPN

FPNSe utilizan C2compilaciones P2, RetainNetno se utilizan C2compilaciones P2. La razón dada en el documento es que C2se calcularán más recursos informáticos. Debido a C2las cuatro características de bajo nivel, la resolución es relativamente grande.

FPNin P6es muestreado por una capa de muestreado de escala máxima, y RetainNet es muestreado por una capa convolucional.

FPNEs de P2-P6, RetainNet es de P3-P7, P7se P6basa en una función de activación ReLU y luego se obtiene a través de una convolución.

En FPN, cada capa de características de predicción solo usa uno scaley tres ratios, y RetainNecada capa de características de predicción en t usa tres scaley tres ratios. RetainNeten scaley ratios如la siguiente tabla:

capas	paso	ancla_tamaños	relaciones_de_aspecto_de_anclaje	El número de anclas generadas (multiplicado por 3 significa 3 proporciones)
P2	4(2 ⁽ ^)2)	32	0.5,1,2	(1024//4) ⁽ ^)2×3=196608
P3	8(2 ⁽ ^)3)	64	0.5,1,2	(1024//8) ⁽ ^)2xx3=49152
P4	16(2 ⁽ ^)4)	128	0.5,1,2	(1024//16)^^2xx3=12288
P5	32(2 ⁽ ^)5)	256	0.5,1,2	(1024//32) ⁽ ^)2xx3=3072
P6	64(2 ⁽ ^)6)	512	0.5,1,2	(1024//64) ⁽ ^)2×3=768

Veamos nuevamente la parte del predictor de RetainNet:
inserte la descripción de la imagen aquí
el predictor se divide en dos ramas, una predice la categoría y la otra es el parámetro de regresión del cuadro delimitador de destino. El resultado final K representa el número de categorías de objetivos de detección (excluyendo el fondo) y A representa anchorel número de cada capa de características de predicción. En FasterRCNNel medio, para la capa de predicción, cada uno anchorgenerará un conjunto de parámetros de regresión de cuadro delimitador para cada categoría, que es ligeramente diferente de la predicción aquí, y es lo mismo aquí SSD, y ahora las muestras básicamente no están disponibles para esta categoría El método de predicción conocido puede reducir los parámetros de entrenamiento de la red.

2. Cálculo de pérdidas

En primer lugar, realizaremos un partido, es decir, un cálculo, para cada uno de anchornuestros gt premarcados, ioulas reglas son las siguientes:

Si $yo o tu >= 0.5$ , marcado como muestra positiva
$yo o tu <= 0.4$ , marcado como una muestra negativa
$\in[0.4, 0.5)$ , descartar

La pérdida total todavía usa la pérdida de clasificación y la pérdida de regresión, como sigue:
$\text { Loss } =\frac{1}{N_{POS}} \sum_i L_ { cls}^i+\frac{1}{N_{POS}} \sum_j L_{reg}^j$

$L_{cls}$ : Sigmoid Focal Loss, lo presentamos en la última publicación del blog, si no lo entiende, puede regresar y ver: Introducción a Focal Loss .

$L_{reg}$ ：Pérdida L1

$i$ : todas las muestras positivas y negativas

$j$ : todas las muestras positivas

$N_{posición}$ : el número de muestras positivas

Lo anterior es RetainNetla introducción sobre la red, si hay algún error, ¡corríjame!

Introducción a la red RetinaNet

prefacio

1. Red RetainNet

2. Cálculo de pérdidas

Supongo que te gusta