Rastreamento de vários objetos - [dois estágios] ByteTrack: Rastreamento de vários objetos associando cada caixa de detecção

Link do artigo: ByteTrack: Rastreamento de vários objetos associando cada caixa de detecção
Código de extração: tz60
Código-fonte aberto: https://github.com/ifzhang/ByteTrack
Link do conjunto de dados MOT17
Código de extração: qqzd

Foco do artigo

  1. Este artigo segue o paradigma Rastreamento por detecção do rastreamento multialvo (MOT) , ou seja, primeiro conclua a detecção do alvo e, em seguida, execute a associação de dados para gerar trajetórias de acordo com os resultados da detecção do alvo para concluir a tarefa do multi - rastreamento de alvo.
  2. [Motivação] Este artigo enfoca a baixa pontuação de detecção de objetos ocluídos ou objetos devido ao desfoque de movimento (Motion Blur) durante a associação de dados. Portanto, ele é filtrado (geralmente o limite do quadro de detecção de alvo é 0,6, e o quadro de detecção de alvo abaixo desse limite é considerado uma detecção falsa do plano de fundo) conforme mostrado na figura abaixo, t 1 , t 2 , t 3 t_1, t_2, t_3t1,t2,t3Existem falsos positivos com nível de confiança de 0,1 no quadro, ou seja, no plano de fundo. Há também um em t 1 , t 2 t_1, t_2t1,t2A confiança do quadro é alta, mas em t 3 t_3t3Os quadros são ocluídos com uma confiança de 0,1 (marcado adicionalmente com uma caixa verde).
    insira a descrição da imagem aqui
  3. Para os problemas mencionados em [Motivação], a solução deste artigo é também o ponto inovador deste artigo, que é propor um método de associação de dados em dois estágios, que considera o quadro de detecção a ser correspondido como uma unidade básica (assim como um byte de computador em ) para correspondência de trajetória.
    • A trajetória de geração de associação de dados no primeiro estágio: primeiro gere uma trajetória para o quadro de detecção acima do limite (a confiança do quadro de detecção é 0,6);
    • A segunda etapa da trajetória de geração de associação de dados: Corresponde a trajetória incomparável com o quadro de detecção cuja confiança é inferior ao limite (0,6) para gerar a trajetória. Após a correspondência, se ainda houver uma confiança incomparável inferior ao limite O quadro de detecção de (0.6) é considerado como plano de fundo e excluído. Considerando a situação de rastreamento de longo prazo quando o alvo desaparece e depois retorna ao campo de visão, o rastreamento incomparável é mantido por um período de tempo (30 quadros).

Pseudocódigo da estrutura de rastreamento

insira a descrição da imagem aqui

  1. Entrada para o algoritmo BYTE : uma sequência de vídeo VVV , um detector de objetosD et DetDe t , um limiteτ \taut .

  2. Execute o seguinte processamento de loop para cada quadro do vídeo de entrada:

    • Aplicar D et DetDe t detecta o alvo no quadro e fornece a caixa delimitadora e a confiança do alvo em potencial para gerar um conjunto de alvos de detecçãoD k D_kDk. De acordo com se a confiança do alvo potencial é maior que o limite τ \tauτ detectará o conjunto de destinoD k D_kDkSubdividido em conjunto de destino de alta confiança D alto D_{alto}Doi gh _E conjunto de metas de baixa confiança D baixo D_{baixo}Dbaixo _ _
    • Use o algoritmo do filtro de Kalman para analisar o conjunto de trajetória Γ \GammaCada trajetória em Γ prevê a nova localização da caixa delimitadora do objeto de trajetória.
    • Realize a primeira etapa da associação de trajetória. Para um alvo de alta confiança, defina D high D_{high}Doi gh _e o conjunto de trajetórias Γ \GammaΓ corresponde. Calcular alvoD alto D_{alto}Doi gh _e o conjunto de trajetórias Γ \GammaA similaridade dos recursos IoU ou Re-ID entre Γ , o algoritmo húngaro é usado para completar a correspondência. Para nenhum quadro de detecção correspondente e conjunto de trajetória, é registrado comoD permanecem D_{remain}Dre principalΓ permanecer \Gamma_{remain}Cre principal
    • Após o término do primeiro estágio de associação de trajetória, a caixa delimitadora de destino de alta confiança que ainda não foi correspondida é inicializada como uma nova trajetória
    • Realize a segunda etapa da associação de trajetória . Para alvo de baixa confiança, defina D baixo D_{baixo}Dbaixo _ _Com o conjunto de trajetórias que não foram correspondidas Γ permanecem \Gamma_{remain}Cre principalTrajetória da partida. O autor constatou que, nesta fase, é melhor usar apenas o método de correspondência IoU, porque o conjunto de alvos de baixa confiança geralmente são aqueles que estão ocluídos, portanto, o recurso de aparência, ou seja, o recurso Re-ID, não é confiável.
    • Neste ponto, o trabalho de correspondência terminou e o quadro de detecção de alvo de baixa confiança incomparável é excluído e é considerado como plano de fundo e removido. E considerando o rastreamento de longo prazo (long-term), o alvo pode reaparecer depois de desaparecer, defina a trajetória Γ re − permanecer \Gamma_{re-remain} que não corresponda a esses dois temposCre - re principalGera um conjunto de alvos perdidos Γ perdidos \Gamma_{perdidos}Cl os t, e para efeito de cálculo, Γ perdeu \Gamma_{perdeu}Cl os t30 quadros são mantidos, após o que são descartados.
  3. A saída do algoritmo BYTE : a trajetória definida Γ \Gamma do alvo no vídeoΓ ,a caixa de detecção e seu ID do objeto incluído em cada trilha em cada quadro.

experimentar

O detector usado no ByteTrack é o YOLOX, e o backbone do YOLOX é o YOLOX-X, usando pesos pré-treinados pelo COCO como pesos iniciais.

MOT17

  • Fase de treinamento: O conjunto de treinamento é MOT17, CrowdHuman, CityPerson, ETHZ.
  • Fase de teste: Apenas IoU é usado para gerar uma matriz de similaridade. Os recursos do Re-ID não são usados.

BDD100K

  • Fase de treinamento: O conjunto de treinamento é o conjunto de treinamento que acompanha o BDD100K e não há dados adicionais.
  • Fase de teste: O modelo de classificação ResNet-50 ImageNet no UniTrack foi usado para extrair recursos Re-ID e calcular a similaridade de aparência. Como esse conjunto de dados é um conjunto de dados do veículo para direção autônoma, as informações de aparência do próprio veículo são relativamente pequenas e a semelhança de aparência é alta, portanto, o recurso Re-ID é extraído.

Acho que você gosta

Origin blog.csdn.net/qq_42312574/article/details/129005565
Recomendado
Clasificación