Notas de leitura em papel (33) [CVPR 2019]: Aprendizagem conjunta discriminativa e generativa para a re-identificação de pessoa

Introdução

(1) Motivação:

O método GAN proposto atualmente tem a separação do gerador e do modelo discriminante reid.O módulo reid usa diretamente a imagem gerada para treinamento, e o efeito é limitado.

 

(2) Contribuição:

O autor propõe uma rede para discriminação conjunta e aprendizado generativo: DG-Net. A estratégia introduz um módulo de geração que codifica cada imagem de pedestre em dois espaços: o espaço de aparência codifica a aparência do pedestre e outras informações semânticas relevantes; o espaço da estrutura codifica a geometria do pedestre, a estrutura de localização e outras informações, conforme mostrado na tabela a seguir:

Enquanto mantém o espaço da aparência inalterado, cada imagem de pedestre combina com o espaço da estrutura de outros pedestres para gerar imagens de pedestres com outras posturas e planos de fundo, conforme mostrado nas linhas da figura a seguir; pelo contrário, cada imagem de pedestre mantém o espaço da estrutura Altere, combinado com os recursos de aparência de outros pedestres, conforme mostrado na coluna abaixo. Através dessa estratégia, imagens de pedestres de alta qualidade são geradas.

 

Método

 

(1) Gere módulo:

Suponha que a imagem e o rótulo reais sejam: e , onde N é o número de imagens e K é o número de IDs de pedestres incluídos nos dados. Dada a soma de duas imagens reais , o módulo de geração gera outras duas imagens, incluindo o codificador de aparência e o codificador de estrutura , codificando a aparência e a estrutura e, em seguida, restaura a imagem gerada através do decodificador . Para determinar se a imagem é gerada ou real. Quando i = j, o gerador pode ser considerado como um autoencoder, ou seja . Para reduzir a influência da codificação da aparência na codificação da estrutura de extração, na entrada

Antes da imagem em escala de cinza de processamento.

O módulo de geração usa os dois processos a seguir:

Generation Geração de identidade própria:

Dada uma imagem , o módulo de geração primeiro aprende como reconstruir sua própria imagem, usando a perda de pixels:

Coloque a estrutura da imagem na mesma imagem de pedestre , a função de perda é:

A perda de identificação do discriminador é:

 

Generation Geração de identidade cruzada:

Para duas fotos com IDs diferentes, a função de perda é:

A função de perda de ID da imagem gerada é:

Introduzir a geração da função anti-perda para tornar os dados gerados mais alinhados com a distribuição real dos dados:

 

(2) módulo de discriminação:

Learning Aprendizagem de características principais:

O modelo treinado em dados brutos é usado como modelo de professor e seu resultado de previsão é fornecer rótulos flexíveis. O modelo de otimização proposto como resultado da previsão do modelo do aluno é . A função de perda é:

Onde K é o número de IDs.

Quando li este parágrafo, fiquei confuso: A estava usando as roupas de B. O rótulo A ou B?

Meu entendimento é que o modelo do professor é usado aqui como um rótulo flexível e não é mais fornecido exatamente se é A ou B. Em vez disso, as probabilidades como A e B são avaliadas intuitivamente a partir da aparência.

 

Features Recursos refinados de mineração:

Use fotos com vestidos diferentes, mas com a mesma estrutura da mesma categoria para extrair recursos mais refinados. A função de perda é:

 

(3) Algoritmo de otimização:

Função de perda total:

 

Experimentar

(1) configurações experimentais:

Setting Configuração do conjunto de dados: Market-1501, DukeMTMC-reID, MSMT17;

Details Detalhes experimentais: o ResNet50 é usado como rede de backbone; os recursos primários e de granulação fina são vetores de 512 dimensões; o código de saída do codificador é 128 * 64 * 32, que contém 4 camadas convolucionais e 4 blocos residuais; o decodificador é 4 blocos residuais seguidos por 4 camadas convolucionais; o discriminador usa PatchGAN em várias escalas, usando três tamanhos de imagem de entrada: 64 * 32, 128 * 64, 256 * 128; o teste usa apenas o codificador de aparência como extração de recursos, Obtenha dois vetores 512-dimensionais para concat;

③ ajuste de parâmetros: parâmetros de treinamento: aprender taxa = 0,002, impulso = 0,9; Formação: Otimização usa Adam, taxa = 0,0001 aprendendo .

 

(2) Resultados experimentais:

Acho que você gosta

Origin www.cnblogs.com/orangecyh/p/12730684.html
Recomendado
Clasificación