Visão geral da detecção de objetos - Parte 2

YOLO


Preveja caixas delimitadoras e probabilidades de classe diretamente de imagens completas em uma única avaliação usando uma única rede neural. Como apenas uma rede é usada em todo o processo de detecção, o desempenho da detecção pode ser otimizado diretamente de ponta a ponta.

Estrutura YOLO: ---- GoogleNet + 4 convoluções + 2 camadas totalmente conectadas

  • 1. Dimensione a imagem para 448X448
  • 2. Execute a rede convolucional no gráfico
  • 3. Limite os resultados da detecção de acordo com a confiança do modelo

insira a descrição da imagem aqui

  • Compreensão da saída 7 * 7 * 30

célula

7 x 7=49 valores de pixel, entendido como 49 células, cada célula pode representar um quadrado da imagem original. As células precisam fazer duas coisas:

  • Cada caixa delimitadora contém duas previsões de objeto, cada objeto inclui 5 valores previstos: x, y, w, he confiança
  • Cada célula prevê duas posições bbox (padrão), duas confianças bbox (confiança): 7 x 7 x 2=98 bboxes. 30=(4+1+4+1+20), 4 informações de coordenadas , 1 confiança (confiança) representa o resultado de uma bbox, 2 0 representa o resultado da probabilidade prevista de 20 categorias

insira a descrição da imagem aqui

  • Filtro de saída da grade

  1. Uma grade irá prever dois Bboxes, e só temos um Bbox dedicado a ele durante o treinamento (um Object e um Bbox)

  2. As 20 probabilidades de classe representam uma bbox nesta rede

  3. confiança

    • Se não houver nenhum objeto na célula da grade, a confiança é 0

    • Se houver, a pontuação de confiança é igual ao produto IOU da caixa prevista e da verdade básica (as duas bboxes em cada célula são comparadas com o valor real para determinar a bbox final)

  • Supressão não máxima (NMS)

perda de treinamento

  • Perda de bbox em três partes + perda de confiança + perda de classificação

YOLO V2

Para o algoritmo YOLO, melhorias: (mecanismo de treinamento, alterações de rede - Darknet-19, algoritmo de agrupamento k-means para análise de agrupamento de caixas delimitadoras no conjunto de treinamento, previsão de posição direta)

YOLO V3

Melhoria: (Rede Darknet-53, regressão logística em vez de softmax como classificador)

Referência:
https://zhuanlan.zhihu.com/p/94986199
Papel YOLO

Acho que você gosta

Origin blog.csdn.net/Peyzhang/article/details/126111181
Recomendado
Clasificación