Série de detecção de alvos de aprendizagem profunda (4) - análise YOLO v4 e migração para a estrutura PaddlePaddle

Autor: Zen e a arte da programação de computadores

1. Introdução

Com o avanço contínuo da tecnologia de aprendizagem profunda, a melhoria do desempenho da computação e o aumento da riqueza dos modelos, o campo da detecção de objetos também entrou em uma nova etapa. À medida que mais e mais pesquisadores se concentram no design e implementação de modelos de detecção de objetos baseados em aprendizagem profunda, surgiram muitos trabalhos excelentes. Entre eles, a rede YOLO (You Only Look Once) obteve grandes conquistas no campo da detecção de alvos naquele ano. Desde que o YOLOv3 foi proposto, outros modelos vêm quebrando recordes e obtendo grande sucesso. Mas antes do lançamento do YOLOv4, o foco principal da pesquisa era como resolver alguns problemas do YOLO. Portanto, este artigo analisará detalhadamente os princípios básicos, detalhes técnicos, diagramas estruturais, técnicas de treinamento, métodos de aprimoramento de dados, etc. do YOLO v4 e, por meio de um exemplo completo, demonstrará como usar a estrutura PaddlePaddle para migrar e prever o YOLO v4. . Por fim, também revisamos os pontos fortes, limitações e direções para melhorias futuras do YOLO v4.

2. Visão geral do YOLO v4

A rede YOLO (You Only Look Once) é um modelo de detecção de alvo proposto pela equipe AlexeyAB. Comparado com o método tradicional baseado em proposta de região, a rede YOLO precisa apenas de uma propagação direta para gerar todo o resultado da detecção. A estrutura da rede é mostrada na figura abaixo: YOLO v4 é composto por vários módulos e as funções de cada módulo são as seguintes:

1. Módulo Darknet-53 Darknet-53 é uma arquitetura de rede neural convolucional leve que consiste em muitos blocos residuais. Ao empilhar os módulos, melhores resultados podem ser obtidos rapidamente. Sua estrutura é mostrada na figura abaixo:

2. Módulo Convolucional com caixas de âncora A função do módulo Convolucional com caixas de âncora é gerar regiões candidatas (caixas de âncora) e combinar as duas sub-redes de classificação e regressão para predição. Sua estrutura é mostrada na figura abaixo:

3.Pré

おすすめ

転載: blog.csdn.net/universsky2015/article/details/132706226