Diretório de artigos
Comentário: FairMOT: sobre a imparcialidade da detecção e reidentificação no rastreamento de vários objetos
Código: https://github.com/ifzhang/FairMOT
Fonte: IJCV2021 See More
1. Fundo
O que é a tarefa de rastreamento de vários objetos (MOT):
- Estimar a trajetória de um objeto de interesse em um vídeo
A importância do MOT é uma tarefa muito importante na visão computacional:
- Facilita a análise de vídeo inteligente
- interação humano-computador
Como o método naquela época resolveu a tarefa MOT
- Muitos métodos constroem a tarefa MOT em um modelo de aprendizado multitarefa, incluindo:
- Detecção de alvo
- reid
Mas os autores argumentam que as duas tarefas estão competindo
Os métodos anteriores geralmente usam reid como a segunda tarefa após a detecção, e seu efeito será afetado pelo efeito da detecção de alvo, e a rede é geralmente tendenciosa para a rede de detecção de alvo de primeiro estágio, o que é muito injusto para reid, e o método MOT de dois estágios é difícil de obter raciocínio em tempo real. A razão é que, quando o número de alvos é grande, os dois modelos não compartilham recursos e o modelo reid precisa extrair recursos para cada quadro.
Portanto, um método de rastreamento de estágio único apareceu posteriormente, usando um modelo para aprender as características de detecção e reid:
- Voigtlaender (um ramo reid é adicionado ao Mask RCNN, e cada proposta aprende recursos reid. Embora a velocidade seja melhorada, o efeito é muito inferior ao método de dois estágios. Geralmente, o efeito de detecção é muito bom, mas o efeito de rastreamento se torna pior.
Portanto, o autor deste artigo primeiro explora as razões para os problemas acima:
- âncoras: as âncoras foram originalmente projetadas para detecção de alvo e não são adequadas para aprender recursos de reid
- O método baseado em âncoras precisa gerar âncoras para o alvo a ser detectado e, em seguida, extrair o recurso reid com base no resultado da detecção. Portanto, o modelo entrará no modo "detectar primeiro, depois reid" durante o treinamento, e o recurso reid será pior
- Além disso, a âncora trará incerteza para o aprendizado dos recursos reid, especialmente em cenas lotadas, uma âncora pode corresponder a vários indivíduos e várias âncoras também podem corresponder a um indivíduo
- Compartilhamento de recursos: os recursos necessários para essas duas tarefas são diferentes, portanto, o compartilhamento de recursos não pode ser executado diretamente
- Reid requer mais recursos de baixo nível para identificar recursos discriminativos entre diferentes instâncias da mesma categoria
- A detecção de objetos requer uma combinação de informações de alto e baixo nível para aprender categorias e locais
- Os métodos de rastreamento de objetos de estágio único podem criar conflitos de recursos e reduzir o desempenho
- Dimensão do recurso: (reid precisa de recursos de dimensão superior, MOT precisa de recursos de baixa dimensão)
- Os recursos Reid geralmente usam uma dimensão de recurso de 512 ou 1024, que é muito maior que a dimensão da detecção de alvo (geralmente categoria + posicionamento), portanto, reduzir a dimensão dos recursos reid é propício ao equilíbrio das duas tarefas
- Rastreamento MOT e reid são diferentes. A tarefa MOT só precisa de correspondência um-para-um dos alvos do quadro frontal e traseiro. Reid precisa de recursos de alta dimensão mais discriminativos para corresponder amostras de consulta de um grande número de amostras candidatas. O MOT não requer recursos de alta dimensão.
- Recursos de reid de baixa dimensão melhorarão a velocidade de inferência
Este artigo propõe um método justo FairMOT: baseado no CenterNet
- Trate a detecção de objetos e reid igualmente, em vez de detectar primeiro e depois reid
- Não é uma simples combinação de CenterNet e REID
O diagrama de estrutura do FairMOT é mostrado na Figura 1:
- Consiste em duas ramificações, respectivamente para detecção de alvo e extração de recursos reid
- A ramificação de detecção de alvo é livre de âncora, que é baseada no mapa de recursos para prever o ponto central e o tamanho do recurso
- A ramificação reid prevê recursos reid para cada localização do centro do objeto
- Esses dois ramos são paralelos e não em série, o que pode equilibrar melhor as duas tarefas
2. Método
2.1 Espinha dorsal
O autor usa ResNet-34 como backbone básico, que pode equilibrar melhor velocidade e precisão
Uma versão mais forte também pode ser obtida usando o DLA
2.2 Ramo de detecção
A ramificação de detecção usa CenterNet, centerNet contém um cabeçote de mapa de calor, um cabeçote wh e um cabeçote de deslocamento
2.3 Filial de reidentificação
Com base nas características de saída do backbone, o autor construiu o ramo reid:
- Os recursos extraídos pela ramificação reid estão distantes em alvos diferentes e curtos no mesmo alvo
- Portanto, o autor usa o kernel 128 para extrair o recurso reid para cada posição no mapa de recursos e o recurso obtido é 128xHxW
Perda de reidentificação:
A maneira como os recursos reid são aprendidos é formalizada como uma tarefa de classificação, onde diferentes instâncias do mesmo indivíduo são consideradas da mesma classe
Para todas as caixas gt em uma imagem, a posição do ponto central será obtida e, em seguida, o recurso reid será extraído e a camada totalmente conectada e a operação softmax serão usadas para mapeá-la para o recurso de classificação
Assumindo que o vetor categoria gt é L e o predito é p, então a perda reid é:
- K é o número de todos os indivíduos nos dados de treinamento
- Durante o treinamento, apenas os recursos individuais centrados no alvo participarão do treinamento
2.4 Feira de TreinamentoMOT
O autor treina conjuntamente os ramos de detecção e reid e soma todas as perdas
Nota: O autor usou a perda de incerteza para equilibrar automaticamente as duas tarefas:
- w 1 w_1c1Soma w 2 w_2c2é um parâmetro que pode ser aprendido para equilibrar as duas tarefas
Além disso, o autor também propôs um único método de treinamento de imagem para treinar FairMOT no conjunto de dados de detecção de alvo em nível de imagem (como COCO, CrowdHuman, etc.)
- O autor pertence a apenas uma imagem por vez, trata cada alvo na imagem como um indivíduo independente e trata cada bbox como uma categoria separada
2.5 Inferência Online
1. Raciocínio da rede
- Insira 1088x608
- Para o mapa de calor previsto, a filtragem NMS é realizada com base na pontuação do mapa de calor para extrair os pontos-chave de pico (NMS é o agrupamento máximo de 3x3) e os pontos-chave maiores que o limite são retidos
- Calcule o tamanho da caixa com base nos pontos-chave retidos e wh, deslocamento de ramificações
2、Associação Online
- Primeiro, o quadro de detecção detectado no primeiro quadro é estabelecido como um tracklet (pista curta)
- Depois disso, em cada quadro subsequente, a estratégia de correspondência de dois estágios será usada para corresponder ao bbox e ao tracklet detectados
- O primeiro estágio da estratégia de correspondência: use o filtro de Kalman e os recursos reid para obter o resultado inicial do rastreamento, use o filtro de Kalman para prever a posição do tracklet do quadro seguinte e calcule a distância de Mahalanobis do quadro de previsão e do quadro de detecção ( D m D_mDm). Então D m D_mDmFusão com distância cosseno, D = λ D r + ( 1 − λ ) D m D=\lambda D_r + (1-\lambda) D_mD=λ Dr+( 1−eu ) Dm, λ = 0,98 \lambda=0,98eu=0,98 é o peso. quandoD m D_mDmMaior que o limite τ 1 = 0,4 \tau_1 = 0,4t1=0,4 , é definido como infinito
- A segunda etapa da estratégia de correspondência: Para resultados de detecção e tracklets não correspondentes, o autor usará a taxa de coincidência entre caixas para correspondência, o limite τ 2 = 0,5 \tau_2 = 0,5t2=0.5 , atualizará os recursos de tracklets
- Por fim, ele reinicializará os resultados da detecção incomparável e manterá 30 quadros para tracklets incomparáveis
3. Efeito
3.1 Conjunto de dados
Conjunto de dados de treinamento:
- ETH e CityPerson: Apenas as informações do rótulo da caixa, portanto, é usado para treinar o ramo de detecção
- CalTech, MOT17, CUHK-SYSU e PRW possuem informações de caixa e anotação de identidade e podem treinar duas filiais
Conjunto de dados de teste:
- 2DMOT15、MOT16、MOT17、MOT29
Método de avaliação:
- Efeito de detecção: mAP
- reid 特征:True Positive Rate, false accept rate =0.1(TPR@FAR=0.1)
- Todo o efeito de rastreamento: CLEAR, IDF1
3.2 Detalhes da Implementação
- Use a variante do DLA-34 como backbone e o modelo pré-treinado no COCO como modelo inicial
- Otimizador: Adam, taxa de aprendizado inicial 1 0 − 4 10^{-4}1 0− 4
- Época: 30, em 20 épocas a taxa de aprendizado é reduzida para 1 0 − 5 10^{-5}1 0− 5
- tamanho do lote: 12
- Tamanho dos dados de entrada: 1088x608 (a resolução do mapa de recursos é 272x152)