[Rastreamento de Alvo] 2. FairMOT | Equilibrando Detecção de Alvo e Tarefas de Reidentificação em Rastreamento de Alvos Múltiplos | IJCV2021


insira a descrição da imagem aqui

Comentário: FairMOT: sobre a imparcialidade da detecção e reidentificação no rastreamento de vários objetos

Código: https://github.com/ifzhang/FairMOT

Fonte: IJCV2021 See More

1. Fundo

O que é a tarefa de rastreamento de vários objetos (MOT):

  • Estimar a trajetória de um objeto de interesse em um vídeo

A importância do MOT é uma tarefa muito importante na visão computacional:

  • Facilita a análise de vídeo inteligente
  • interação humano-computador

Como o método naquela época resolveu a tarefa MOT

  • Muitos métodos constroem a tarefa MOT em um modelo de aprendizado multitarefa, incluindo:
    • Detecção de alvo
    • reid

Mas os autores argumentam que as duas tarefas estão competindo

Os métodos anteriores geralmente usam reid como a segunda tarefa após a detecção, e seu efeito será afetado pelo efeito da detecção de alvo, e a rede é geralmente tendenciosa para a rede de detecção de alvo de primeiro estágio, o que é muito injusto para reid, e o método MOT de dois estágios é difícil de obter raciocínio em tempo real. A razão é que, quando o número de alvos é grande, os dois modelos não compartilham recursos e o modelo reid precisa extrair recursos para cada quadro.

Portanto, um método de rastreamento de estágio único apareceu posteriormente, usando um modelo para aprender as características de detecção e reid:

  • Voigtlaender (um ramo reid é adicionado ao Mask RCNN, e cada proposta aprende recursos reid. Embora a velocidade seja melhorada, o efeito é muito inferior ao método de dois estágios. Geralmente, o efeito de detecção é muito bom, mas o efeito de rastreamento se torna pior.

Portanto, o autor deste artigo primeiro explora as razões para os problemas acima:

  • âncoras: as âncoras foram originalmente projetadas para detecção de alvo e não são adequadas para aprender recursos de reid
    • O método baseado em âncoras precisa gerar âncoras para o alvo a ser detectado e, em seguida, extrair o recurso reid com base no resultado da detecção. Portanto, o modelo entrará no modo "detectar primeiro, depois reid" durante o treinamento, e o recurso reid será pior
    • Além disso, a âncora trará incerteza para o aprendizado dos recursos reid, especialmente em cenas lotadas, uma âncora pode corresponder a vários indivíduos e várias âncoras também podem corresponder a um indivíduo
  • Compartilhamento de recursos: os recursos necessários para essas duas tarefas são diferentes, portanto, o compartilhamento de recursos não pode ser executado diretamente
    • Reid requer mais recursos de baixo nível para identificar recursos discriminativos entre diferentes instâncias da mesma categoria
    • A detecção de objetos requer uma combinação de informações de alto e baixo nível para aprender categorias e locais
    • Os métodos de rastreamento de objetos de estágio único podem criar conflitos de recursos e reduzir o desempenho
  • Dimensão do recurso: (reid precisa de recursos de dimensão superior, MOT precisa de recursos de baixa dimensão)
    • Os recursos Reid geralmente usam uma dimensão de recurso de 512 ou 1024, que é muito maior que a dimensão da detecção de alvo (geralmente categoria + posicionamento), portanto, reduzir a dimensão dos recursos reid é propício ao equilíbrio das duas tarefas
    • Rastreamento MOT e reid são diferentes. A tarefa MOT só precisa de correspondência um-para-um dos alvos do quadro frontal e traseiro. Reid precisa de recursos de alta dimensão mais discriminativos para corresponder amostras de consulta de um grande número de amostras candidatas. O MOT não requer recursos de alta dimensão.
    • Recursos de reid de baixa dimensão melhorarão a velocidade de inferência

insira a descrição da imagem aqui

Este artigo propõe um método justo FairMOT: baseado no CenterNet

  • Trate a detecção de objetos e reid igualmente, em vez de detectar primeiro e depois reid
  • Não é uma simples combinação de CenterNet e REID

O diagrama de estrutura do FairMOT é mostrado na Figura 1:

  • Consiste em duas ramificações, respectivamente para detecção de alvo e extração de recursos reid
  • A ramificação de detecção de alvo é livre de âncora, que é baseada no mapa de recursos para prever o ponto central e o tamanho do recurso
  • A ramificação reid prevê recursos reid para cada localização do centro do objeto
  • Esses dois ramos são paralelos e não em série, o que pode equilibrar melhor as duas tarefas

insira a descrição da imagem aqui

2. Método

2.1 Espinha dorsal

O autor usa ResNet-34 como backbone básico, que pode equilibrar melhor velocidade e precisão

Uma versão mais forte também pode ser obtida usando o DLA

2.2 Ramo de detecção

A ramificação de detecção usa CenterNet, centerNet contém um cabeçote de mapa de calor, um cabeçote wh e um cabeçote de deslocamento

2.3 Filial de reidentificação

Com base nas características de saída do backbone, o autor construiu o ramo reid:

  • Os recursos extraídos pela ramificação reid estão distantes em alvos diferentes e curtos no mesmo alvo
  • Portanto, o autor usa o kernel 128 para extrair o recurso reid para cada posição no mapa de recursos e o recurso obtido é 128xHxW

Perda de reidentificação:

A maneira como os recursos reid são aprendidos é formalizada como uma tarefa de classificação, onde diferentes instâncias do mesmo indivíduo são consideradas da mesma classe

Para todas as caixas gt em uma imagem, a posição do ponto central será obtida e, em seguida, o recurso reid será extraído e a camada totalmente conectada e a operação softmax serão usadas para mapeá-la para o recurso de classificação

Assumindo que o vetor categoria gt é L e o predito é p, então a perda reid é:

insira a descrição da imagem aqui

  • K é o número de todos os indivíduos nos dados de treinamento
  • Durante o treinamento, apenas os recursos individuais centrados no alvo participarão do treinamento

2.4 Feira de TreinamentoMOT

O autor treina conjuntamente os ramos de detecção e reid e soma todas as perdas

Nota: O autor usou a perda de incerteza para equilibrar automaticamente as duas tarefas:

insira a descrição da imagem aqui

  • w 1 w_1c1Soma w 2 w_2c2é um parâmetro que pode ser aprendido para equilibrar as duas tarefas

Além disso, o autor também propôs um único método de treinamento de imagem para treinar FairMOT no conjunto de dados de detecção de alvo em nível de imagem (como COCO, CrowdHuman, etc.)

  • O autor pertence a apenas uma imagem por vez, trata cada alvo na imagem como um indivíduo independente e trata cada bbox como uma categoria separada

2.5 Inferência Online

1. Raciocínio da rede

  • Insira 1088x608
  • Para o mapa de calor previsto, a filtragem NMS é realizada com base na pontuação do mapa de calor para extrair os pontos-chave de pico (NMS é o agrupamento máximo de 3x3) e os pontos-chave maiores que o limite são retidos
  • Calcule o tamanho da caixa com base nos pontos-chave retidos e wh, deslocamento de ramificações

2、Associação Online

  • Primeiro, o quadro de detecção detectado no primeiro quadro é estabelecido como um tracklet (pista curta)
  • Depois disso, em cada quadro subsequente, a estratégia de correspondência de dois estágios será usada para corresponder ao bbox e ao tracklet detectados
    • O primeiro estágio da estratégia de correspondência: use o filtro de Kalman e os recursos reid para obter o resultado inicial do rastreamento, use o filtro de Kalman para prever a posição do tracklet do quadro seguinte e calcule a distância de Mahalanobis do quadro de previsão e do quadro de detecção ( D m D_mDm). Então D m ​​D_mDmFusão com distância cosseno, D = λ D r + ( 1 − λ ) D m D=\lambda D_r + (1-\lambda) D_mD=λ Dr+( 1eu ) Dm, λ = 0,98 \lambda=0,98eu=0,98 é o peso. quandoD m ​​D_mDmMaior que o limite τ 1 = 0,4 \tau_1 = 0,4t1=0,4 , é definido como infinito
    • A segunda etapa da estratégia de correspondência: Para resultados de detecção e tracklets não correspondentes, o autor usará a taxa de coincidência entre caixas para correspondência, o limite τ 2 = 0,5 \tau_2 = 0,5t2=0.5 , atualizará os recursos de tracklets
  • Por fim, ele reinicializará os resultados da detecção incomparável e manterá 30 quadros para tracklets incomparáveis

3. Efeito

3.1 Conjunto de dados

Conjunto de dados de treinamento:

  • ETH e CityPerson: Apenas as informações do rótulo da caixa, portanto, é usado para treinar o ramo de detecção
  • CalTech, MOT17, CUHK-SYSU e PRW possuem informações de caixa e anotação de identidade e podem treinar duas filiais

Conjunto de dados de teste:

  • 2DMOT15、MOT16、MOT17、MOT29

Método de avaliação:

  • Efeito de detecção: mAP
  • reid 特征:True Positive Rate, false accept rate =0.1(TPR@FAR=0.1)
  • Todo o efeito de rastreamento: CLEAR, IDF1

3.2 Detalhes da Implementação

  • Use a variante do DLA-34 como backbone e o modelo pré-treinado no COCO como modelo inicial
  • Otimizador: Adam, taxa de aprendizado inicial 1 0 − 4 10^{-4}1 04
  • Época: 30, em 20 épocas a taxa de aprendizado é reduzida para 1 0 − 5 10^{-5}1 05
  • tamanho do lote: 12
  • Tamanho dos dados de entrada: 1088x608 (a resolução do mapa de recursos é 272x152)

3.3 Experimento de ablação

insira a descrição da imagem aqui

insira a descrição da imagem aqui

insira a descrição da imagem aqui

insira a descrição da imagem aqui

insira a descrição da imagem aqui

insira a descrição da imagem aqui

insira a descrição da imagem aqui

3.4 Efeito final

insira a descrição da imagem aqui

insira a descrição da imagem aqui

insira a descrição da imagem aqui

insira a descrição da imagem aqui

insira a descrição da imagem aqui

Acho que você gosta

Origin blog.csdn.net/jiaoyangwm/article/details/131831032
Recomendado
Clasificación