Pic2Word: Mapeamento de imagens para palavras para recuperação de imagem sintética zero-shot

imagem-20230716161423896

A recuperação de imagens desempenha um papel vital nos mecanismos de pesquisa. Normalmente, seus usuários contam com imagens ou textos como consultas para recuperar as imagens de destino desejadas. No entanto, a recuperação baseada em texto tem suas limitações, pois pode ser um desafio descrever com precisão as imagens de destino usando palavras. Por exemplo, ao pesquisar itens de moda, um usuário pode querer um item com um atributo específico (como a cor do logotipo ou o próprio logotipo) diferente do item encontrado no site. No entanto, pesquisar esse item nos mecanismos de pesquisa existentes não é uma tarefa fácil, pois pode ser um desafio descrever com precisão os itens de moda por meio de texto. Para resolver esse fato, a recuperação combinada de imagens (CIR) recupera imagens com base em uma consulta que combina exemplos de imagem e texto que fornecem instruções sobre como modificar a imagem para atender aos objetivos de recuperação pretendidos. Portanto, o CIR permite a recuperação precisa de imagens de destino combinando imagens e texto.

No entanto, os métodos CIR requerem uma grande quantidade de dados rotulados, ou seja, trios de 1) imagem de consulta, 2) descrição e 3) imagem de destino. A coleta desses dados rotulados é cara, e os modelos treinados nesses dados geralmente são adaptados para casos de uso específicos, limitando sua capacidade de generalizar para diferentes conjuntos de dados.

Para enfrentar esses desafios, em "Pic2Word: mapeando imagens em palavras para recuperação de imagens sintéticas de disparo zero", propomos uma tarefa chamada CIR de disparo zero (ZS-CIR). No ZS-CIR, nosso objetivo é construir um modelo CIR que execute várias tarefas CIR, como composição de objetos, edição de atributos ou transformação de domínio, sem rotular dados tripletos. Em vez disso, propomos treinar modelos de recuperação usando pares de legenda de imagem em grande escala e imagens não rotuladas, que são mais fáceis de coletar do que conjuntos de dados CIR supervisionados em grande escala. Para incentivar a reprodutibilidade e avançar ainda mais no campo, também liberamos o código.

imagem-20230716161452791

Uma descrição dos modelos de recuperação de imagem combinados existentes.

imagem-20230716161523746

Treinamos um modelo de recuperação de imagem combinado usando apenas dados de legenda de imagem. Nosso modelo recupera imagens alinhadas à composição da imagem e do texto da consulta.

Visão geral do método

Propomos aproveitar os recursos de linguagem dos codificadores de linguagem no modelo de Pré-treinamento de Imagem de Linguagem Contrastiva (CLIP), que se destaca na geração de incorporações de linguagem semanticamente significativas para uma ampla gama de conceitos e propriedades textuais. Para esse fim, usamos um submódulo de mapeamento leve no CLIP projetado para mapear imagens de entrada (por exemplo, fotos de gatos) do espaço de incorporação de imagens para tokens de palavras (por exemplo, "gato") no espaço de entrada de texto. Toda a rede é otimizada com uma perda contrastiva visual-linguística para garantir novamente que os espaços de incorporação visual e textual sejam o mais próximo possível, dado um par de imagens e suas descrições textuais. Então, a imagem da consulta pode ser tratada como uma palavra. Isso permite que os codificadores de idioma combinem de forma flexível e perfeita recursos de imagem de consulta e legendas de texto. Chamamos nosso método de Pic2Word e descrevemos seu procedimento de treinamento na figura abaixo. Queremos que os tokens mapeados representem a imagem de entrada na forma de tokens de palavras. Em seguida, treinamos a rede de mapeamento para reconstruir a incorporação de imagem p a partir da incorporação de linguagem. Especificamente, otimizamos a perda contrastiva entre o embedding visual v e o embedding de texto p proposto no CLIP.

imagem-20230716161559658

A rede de mapeamento (fM) é treinada usando apenas imagens não rotuladas. Otimizamos a rede de mapeamento usando apenas codificadores visuais e textuais congelados.

Dada uma rede de mapeamento treinada, podemos tratar imagens como tokens de palavras e associá-las a descrições textuais para compor de forma flexível consultas conjuntas de gráfico-texto, conforme mostrado na figura abaixo.

imagem-20230716161627054

Com uma rede de mapeamento treinada, tratamos imagens como tokens de palavras e as associamos a descrições textuais para compor de forma flexível consultas conjuntas imagem-texto.

Avalie

Conduzimos vários experimentos para avaliar o desempenho do Pic2Word em várias tarefas CIR.

conversão de domínio

Primeiro avaliamos a capacidade combinatória do método proposto em termos de transferência de domínio - dada uma imagem e um novo domínio de imagem desejado (por exemplo, escultura, origami, desenho animado, brinquedo), a saída do sistema deve ser uma imagem com o mesmo conteúdo, mas com o novo domínio ou estilo de imagem desejado. Conforme mostrado na figura abaixo, avaliamos a capacidade de combinar informações de categoria e descrição de domínio em forma de imagem e texto, respectivamente. Avaliamos a tradução de imagens reais para os quatro domínios usando ImageNet e ImageNet-R.

Para comparação com métodos que não requerem dados de treinamento supervisionados, selecionamos três métodos: (i) imagens para realizar a recuperação usando apenas embeddings visuais, (ii) texto para usar apenas embeddings de texto e (iii) imagens + texto para obter a média de embeddings visuais e de texto para compor consultas. A comparação com (iii) mostra a importância do uso de codificadores de linguagem para compor imagens e textos. Também comparamos com o Combiner, que treina o modelo CIR no Fashion-IQ ou CIRR.

imagem-20230716161707810

Nosso objetivo é transformar o domínio de uma imagem de consulta de entrada em um domínio descrito em texto, como origami.

Conforme mostrado na figura abaixo, nosso método proposto supera substancialmente as linhas de base.

imagem-20230716161722186

Os resultados da recuperação da imagem (recall @10, a porcentagem de instâncias relevantes nas 10 principais imagens recuperadas) são combinados para transformação de domínio.

Composição de atributos de moda

Em seguida, usamos o conjunto de dados Fashion-IQ para avaliar a composição dos atributos de moda, como cor do tecido, logotipo e comprimento da manga. A figura abaixo ilustra a saída desejada para uma determinada consulta.

imagem-20230716161740213

Visão geral do CIR sobre os atributos da moda.

Na figura abaixo, fornecemos comparações com linhas de base, incluindo linhas de base supervisionadas que usam trigêmeos para treinar modelos CIR: (i) CB usa a mesma arquitetura de nosso método, (ii) CIRPLANT, ALTEMIS, MAAF usam backbones menores, como ResNet50. A comparação com esses métodos nos permitirá ver o desempenho do nosso método zero-shot nessa tarefa.

Embora o CB supere nosso método, nosso método supera as linhas de base supervisionadas com backbones menores. Este resultado mostra que, ao alavancar o modelo CLIP robusto, podemos treinar um modelo CIR eficiente sem trigêmeos anotados.

imagem-20230716161807648

Resultados da recuperação de imagens combinadas no conjunto de dados Fashion-IQ (lembre-se de @10, a porcentagem de instâncias relevantes nas 10 principais imagens recuperadas) (quanto maior, melhor). Barras azuis claras treinam o modelo usando triplos. Observe que nosso método é comparável a essas linhas de base supervisionadas com backbones rasos (menores).

resultados qualitativos

Mostramos alguns exemplos na figura abaixo. Comparado aos métodos de linha de base que não requerem dados de treinamento supervisionados (média de recurso de texto + imagem), nosso método faz um trabalho melhor ao recuperar corretamente a imagem de destino.

imagem-20230716161828914

Resultados qualitativos para várias imagens de consulta e descrições de texto.

Conclusões e Trabalho Futuro

Neste artigo, apresentamos o Pic2Word, um método para mapear imagens para palavras ZS-CIR. Propomos converter imagens em tokens de palavras para implementar um modelo CIR usando apenas conjuntos de dados de legenda de imagem. Através de vários experimentos, verificamos a eficácia do modelo treinado em diferentes tarefas CIR, mostrando que o treinamento no conjunto de dados de legenda da imagem pode construir um poderoso modelo CIR. Uma possível direção de pesquisa futura é usar dados de legenda para treinar a rede de mapeamento, embora usemos apenas dados de imagem no trabalho atual.

Acho que você gosta

Origin blog.csdn.net/shupan/article/details/131760368
Recomendado
Clasificación