YOLO
Preveja caixas delimitadoras e probabilidades de classe diretamente de imagens completas em uma única avaliação usando uma única rede neural. Como apenas uma rede é usada em todo o processo de detecção, o desempenho da detecção pode ser otimizado diretamente de ponta a ponta.
Estrutura YOLO: ---- GoogleNet + 4 convoluções + 2 camadas totalmente conectadas
- 1. Dimensione a imagem para 448X448
- 2. Execute a rede convolucional no gráfico
- 3. Limite os resultados da detecção de acordo com a confiança do modelo
célula
7 x 7=49 valores de pixel, entendido como 49 células, cada célula pode representar um quadrado da imagem original. As células precisam fazer duas coisas:
- Cada caixa delimitadora contém duas previsões de objeto, cada objeto inclui 5 valores previstos: x, y, w, he confiança
- Cada célula prevê duas posições bbox (padrão), duas confianças bbox (confiança): 7 x 7 x 2=98 bboxes. 30=(4+1+4+1+20), 4 informações de coordenadas , 1 confiança (confiança) representa o resultado de uma bbox, 2 0 representa o resultado da probabilidade prevista de 20 categorias
-
Uma grade irá prever dois Bboxes, e só temos um Bbox dedicado a ele durante o treinamento (um Object e um Bbox)
-
As 20 probabilidades de classe representam uma bbox nesta rede
-
confiança
-
Se não houver nenhum objeto na célula da grade, a confiança é 0
-
Se houver, a pontuação de confiança é igual ao produto IOU da caixa prevista e da verdade básica (as duas bboxes em cada célula são comparadas com o valor real para determinar a bbox final)
-
perda de treinamento
- Perda de bbox em três partes + perda de confiança + perda de classificação
YOLO V2
Para o algoritmo YOLO, melhorias: (mecanismo de treinamento, alterações de rede - Darknet-19, algoritmo de agrupamento k-means para análise de agrupamento de caixas delimitadoras no conjunto de treinamento, previsão de posição direta)
YOLO V3
Melhoria: (Rede Darknet-53, regressão logística em vez de softmax como classificador)
Referência:
https://zhuanlan.zhihu.com/p/94986199
Papel YOLO