prefácio

Nós o apresentamos na postagem anterior do blog Focal Loss, e o princípio é relativamente simples. Se você não o entender, pode pular para a postagem anterior do blog para saber mais sobre ele. Introdução à Perda Focal . Vamos dar uma olhada na fonte desta postagem do blog Focal Loss: Perda focal para detecção de objetos densosRetainNet , este artigo propõe uma rede one-stageque foi superada pela rede two-stage.

1. Rede RetainNet

Vejamos primeiro o desempenho RetainNete você pode ver que ele é muito superior Faster R-CNNà rede. Vamos dar uma olhada na estrutura da rede novamente
insira a descrição da imagem aqui
: podemos ver que uma estrutura semelhante também é adotada , com três diferenças principais .RetainNet

RetainNetFPNFPN

FPNC2Compilações são usadas P2, compilações RetainNetnão são usadas . A razão apresentada no artigo é que mais recursos computacionais serão calculados. Devido aos quatro recursos de baixo nível, a resolução é relativamente grande.C2P2C2C2

FPNin P6é reduzido por uma camada de redução de escala máxima e RetainNet é reduzido por uma camada convolucional.

FPNÉ de P2-P6, RetainNet é de P3-P7, P7é P6baseado em uma função de ativação ReLU e, em seguida, obtido por meio de uma convolução.

Em FPN, cada camada de feição de previsão usa apenas um scalee três ratios, e RetainNecada camada de feição de predição em t usa três scalee três ratios. RetainNetin scalee ratios如a seguinte tabela:

camadas	passo largo	tamanhos_âncora	anchor_aspect_ratios	O número de âncoras geradas (multiplicado por 3 significa 3 proporções)
P2	4(2 ⁽ ^)2)	32	0,5,1,2	(1024//4) ⁽ ^)2×3=196608
P3	8(2 ⁽ ^)3)	64	0,5,1,2	(1024//8) ⁽ ^)2xx3=49152
P4	16(2 ⁽ ^)4)	128	0,5,1,2	(1024//16)^^2xx3=12288
P5	32(2 ⁽ ^)5)	256	0,5,1,2	(1024//32) ⁽ ^)2xx3=3072
P6	64(2 ⁽ ^)6)	512	0,5,1,2	(1024//64) ⁽ ^)2×3=768

Vejamos novamente a parte do preditor do RetainNet:
insira a descrição da imagem aqui
o preditor é dividido em duas ramificações, uma prevê a categoria e a outra é o parâmetro de regressão da caixa delimitadora de destino. A saída final K representa o número de categorias de alvos de detecção (excluindo o plano de fundo) e A representa anchoro número de cada camada de recurso de previsão. No FasterRCNNmeio, para a camada de previsão, cada um anchorirá gerar um conjunto de parâmetros de regressão de caixa delimitadora para cada categoria, que é ligeiramente diferente da previsão aqui, e é o mesmo aqui SSD. Agora, as amostras basicamente não estão disponíveis para esta categoria. O método de previsão conhecido pode reduzir os parâmetros de treinamento da rede.

2. Cálculo de perdas

Antes de tudo, faremos uma partida, ou seja, cálculo, para cada um dos anchornossos gt pré-marcados, iouas regras são as seguintes:

Se $eu ou você >= 0,5$ , marcado como uma amostra positiva
$eu ou você <= 0,4$ , marcado como uma amostra negativa
$\in[0.4, 0.5)$ , descartar

A perda total ainda usa perda de classificação e perda de regressão, como segue:
$\text { Perda } =\frac{1}{N_{POS}} \sum_i L_ { cls}^i+\frac{1}{N_{POS}} \sum_j L_{reg}^j$

$L_{cls}$ : Perda Focal Sigmóide, apresentamos no último post do blog, se você não entendeu pode voltar e ver: Introdução à Perda Focal .

$L_{reg}$ ：L1 Perda

$i$ : todas as amostras positivas e negativas

$j$ : todas as amostras positivas

$N_{pos}$ : o número de amostras positivas

O texto acima é RetainNetuma introdução sobre a rede, se houver algum erro, por favor me corrija!

Introdução à rede RetinaNet

prefácio

1. Rede RetainNet

2. Cálculo de perdas

Acho que você gosta