Estrutura de inferência neural de divisão e conquista para recuperação complexa de imagens e textos | ACL 2023

Clique no texto azul

49d106022ddfeb157e9f9fd4824c226d.jpeg

Siga-nos

AI TIME dá as boas-vindas a todos os entusiastas de IA!

breve introdução:

Modelos de linguagem visual pré-treinados (VLM) alcançam desempenho notável na recuperação de imagens de texto. No entanto, o seu desempenho caiu drasticamente quando confrontados com textos linguisticamente complexos que tinham dificuldade em compreender. Inspirado no algoritmo de dividir e conquistar e na teoria do processo duplo, este artigo trata o texto linguisticamente complexo como um texto proposicional composto composto de múltiplas sentenças proposicionais simples e propõe uma estrutura de raciocínio neural de divisão e conquista de ponta a ponta, chamado NDCR.

Ele contém três componentes principais:

1) Divisão: Propor um gerador de proposições baseado no modelo de linguagem, que divide textos de proposições compostas em sentenças de proposições simples e gera representações correspondentes

2) Conquistar: Utilize um interator de linguagem visual baseado em VLM pré-treinado para realizar a interação entre frases de proposição simples e imagens

 3) Combinação: O raciocinador simbólico neural combina os estados de sub-raciocínio acima para obter a solução final por meio de métodos de raciocínio lógico neural.

De acordo com a teoria do processo duplo, o interator da linguagem visual e o raciocinador neurosimbólico podem ser considerados como sistema de raciocínio analógico 1 e sistema de raciocínio lógico 2. Todo o sistema integrará as capacidades de computação perceptiva do modelo de linguagem visual e as capacidades de inferência lógica das operações simbólicas neurais da camada superior. Conduzimos extensos experimentos no conjunto de dados de recuperação de imagens de descrição de contexto muito desafiador IMAGECODE.

Resultados experimentais e análises mostram que o NDCR melhora significativamente o desempenho de problemas complexos de raciocínio imagem-texto.É viável e eficaz introduzir operações lógicas simbólicas neurais baseadas em modelos de linguagem visual pré-treinados para resolver problemas complexos de raciocínio imagem-texto.

Endereço do artigo: https://arxiv.org/abs/2305.02265

Endereço do código: https://github.com/YunxinLi/NDCR

01

 fundo  

Desde a introdução de modelos de linguagem visual pré-treinados, como CLIP, Oscar, etc., o desempenho das tarefas de recuperação de imagens e textos melhorou bastante. Conforme mostrado na figura abaixo, quando eles encontram textos longos complexos e imagens semelhantes, o desempenho geral cai drasticamente. Os modelos anteriores de recuperação de imagens e textos pré-treinados foram treinados principalmente em um grande número de pares de imagens e textos em nível de frase por meio de métodos de aprendizagem contrastiva e de aprendizagem por máscara de linguagem. Portanto, eles têm dificuldade em modelar textos longos e com linguagem complexa.

da60f858b173e98dce31a9df58458086.png

Dividir e Conquistar: Uma estratégia de aprendizagem que funciona decompondo problemas complexos em subproblemas menores, resolvendo os subproblemas e combinando-os para obter o resultado desejado. Inspirados nisso, diante de cenários complexos de recuperação de imagens e textos, podemos decompor seu conteúdo de texto complexo, extrair informações semânticas simples, calcular o status de raciocínio de imagens e textos e resultados de correspondência de blocos subsemânticos, e obter o resultado final por meio da conjunção .

Teoria do Processo Duplo do pensamento humano: O processo de pensamento do cérebro humano inclui dois sistemas de pensamento: o Sistema 1 é bom em analogia; o Sistema 2 é capaz de raciocínio lógico abstrato e é adequado para problemas de raciocínio complexos. Em cenas gráficas e textuais complexas, podemos considerar o modelo de linguagem visual pré-treinado como um sistema de raciocínio analógico, que é bom para representação, alinhamento e fusão simples de gráficos e textos. Nesta base, um sistema de computação lógica pode ser introduzido para resolver problemas complexos de raciocínio multimodal, como recuperação complexa de imagens e textos, para aprimorar ainda mais as capacidades de raciocínio de todo o sistema.

fc5db79c19285a1db1f65b9b4a594d9a.png

Com base no exposto, podemos combinar a ideia de dividir para conquistar com a teoria do processo duplo, tratar textos longos como textos de proposições lógicas complexas, projetar um gerador de proposições para decompô-los em subproposições simples e obter a representação de simples proposições. Em segundo lugar, o modelo de linguagem visual pré-treinado é usado como Sistema de computação perceptual 1 para obter o status de raciocínio e resultados de correspondência de subproposições simples em imagens diferentes. No estágio conjuntivo dos resultados da inferência da subproposição, o Sistema de computação simbólica neural 2 é introduzido para obter o resultado final da inferência lógica.

d755d1bd06b92d926965677f30db2323.png

02

Introdução ao método

Gerador de proposições. O gerador de proposições é um modelo sequência a sequência baseado no modelo de linguagem pré-treinado BART. Seu objetivo é decompor textos proposicionais complexos em representações de sentenças proposicionais simples. Para explicar o que representa especificamente uma representação proposicional simples, usamos o decodificador BART para gerar sentenças correspondentes com base na representação codificada. Este módulo é primeiro ajustado na tarefa de simplificação de sentença e depois aplicado a esta tarefa, e os parâmetros não são atualizados durante o treinamento geral do modelo NDCR.

66ddd7377087f17be66cc40e2792ee09.png

Sistema 1: Sistema de Interação Proposição-Imagem Este módulo foi projetado para realizar interação visual-proposição de informações, semelhante ao Sistema 1. Este módulo é baseado no modelo de linguagem visual treinado OFA. As saídas deste módulo são pontuações de correspondência de proposição-imagem e estados de raciocínio. Introduzimos uma estrutura Transformer de duas camadas para raciocinar a interação de informações entre diferentes imagens.

7dc78c12c00c36434290e65ae076d170.png

Sistema 2: Raciocinador simbólico neural.Este módulo é responsável por integrar os estados de raciocínio e resultados de proposições simples para obter a solução final de proposições complexas na imagem. Consiste em executores de negação e operações conjuntivas. O executor negativo é usado para obter o estado de inferência negativo do estado de inferência. A operação conjuntiva é responsável por obter o resultado da inferência com base nos estados conjuntos de inferência positiva e negativa.

3298f46f81223d426f8b98c5c39145e0.png

Especificamente, por meio do Sistema1, podemos obter o estado de raciocínio H^{S_1} de cada proposição simples e a pontuação de correspondência da proposição de imagem correspondente P^{S_{1}}. Em seguida, introduzimos um executor de negação neural (um MLP de duas camadas com função de ativação ReLU) para obter a negação da proposição e o estado de raciocínio da imagem, que é representado como o estado de raciocínio de negação (H ^ {N}) de cada proposição simples . Para fazer isso, tratamos H^{S_1} como o estado de inferência positivo de cada proposição simples e o alimentamos no executor negativo para obter o estado de inferência negativo H^{N}. Portanto, a entrada e a saída do executor de negação são H^{S_1} e H^{N}. Também podemos obter a pontuação correspondente (P^{N}) correspondente à proposição negativa usando a mesma cabeça de predição do Sistema 1 em H^{N}. É importante ressaltar que precisamos otimizar localmente o executor de negação usando a função de perda projetada para que ele execute cálculos de negação. Especificamente, deixamos a divergência KL entre as duas distribuições P^{S_{1}} e P^{N} ser maior que um determinado valor definido para otimizar localmente o executor negativo. Ao mesmo tempo, o estado de raciocínio negativo será inserido no processo de operação de conjunção para obter o estado de raciocínio final de todo o raciocínio simbólico neural. A perda de correspondência final e a perda local do raciocinador simbólico neural otimizarão conjuntamente o executor de negação.

Combinando Sistema 1 e Sistema 2. Este processo é responsável por integrar os resultados do raciocínio do Sistema 1 e Sistema 2 como solução final. A saída do Sistema 1 consiste em cálculos perceptivos de proposições simples em imagens. A saída do Sistema 2 é o resultado da inferência lógica da descrição geral. Ao fazer isso, todo o sistema aproveita tanto o Sistema Analógico 1 quanto o Sistema Lógico 2.

03

Resultados experimentais

Conforme mostrado na Figura 1 abaixo, os resultados experimentais no conjunto de dados IMAGECODE são mostrados. O NDCR apresenta melhor desempenho do que outros modelos de benchmark. Além disso, conforme mostrado na Figura 2 abaixo, também realizamos experimentos de ablação em todo o modelo para verificar o desempenho de diferentes módulos. Através de resultados experimentais, pode-se descobrir que o sistema de raciocínio simbólico neural pode de fato melhorar a capacidade geral de raciocínio lógico do modelo.

72988aa8e78b6bcf9e21b197c8c4f3f2.png

fc4b24932ffc8f061660e4c06c3a26d5.png

Apresentamos dois exemplos para demonstrar o desempenho do modelo. Pode-se observar pela figura que o modelo NDCR desenhado possui uma certa interpretabilidade do processo, podendo obter os resultados dos cálculos de diferentes módulos para facilitar a análise da capacidade de raciocínio de todo o sistema.

f9440305813a735171aa82d3cae3cc24.png

d83819b35507846c9b477a7aa47d4c16.png

04

 para concluir  

Neste artigo, inspirado no algoritmo de dividir e conquistar e na teoria do processo duplo, introduzimos uma estrutura de inferência neural de dividir e conquistar chamada NDCR para lidar com o caso desafiador de recuperação de imagens de texto linguisticamente complexo. O NDCR inclui um gerador de proposição que divide o texto da proposição composta em múltiplas sentenças de proposição simples e, em seguida, usa um interator de linguagem visual para realizar a interação entre proposições simples e imagens. A fim de melhorar a capacidade de raciocínio lógico, projetamos um raciocínio simbólico neural para obter resultados de raciocínio lógico com base na saída do interator de linguagem visual. Desta forma, o NDCR realiza cálculos de percepção analógica no Sistema 1 (Interator de Linguagem Visual) e raciocínio lógico de alto nível no Sistema 2 (Raciocinador Simbólico Neural). Finalmente, combinamos as saídas dos sistemas 1 e 2 para obter a solução final.

O método NDCR proposto tem algumas limitações, que são as seguintes:

1) A representação de sentenças proposicionais simples geradas no gerador de proposições está em uma distribuição espacial diferente da codificação da imagem, o que afetará o desempenho de sua representação fundida. Embora introduzamos informações de raciocínio de texto proposicional composto para aliviar este problema, preferimos resolvê-lo melhorando a capacidade de compreensão de texto do VLM pré-treinado. Além disso, usar codificadores de texto pré-treinados do VLM para realizar a decomposição proposicional é muito ineficaz porque eles têm pouca compreensão da estrutura discursiva de textos longos.

2) As imagens derivadas de quadros de vídeo são altamente semelhantes e o desempenho do modelo nessas amostras é significativamente inferior ao nível humano. No futuro, podemos melhorá-lo do ponto de vista da modelagem de diferenças de imagens.

3) Os resultados experimentais mostram que nosso método é eficaz para raciocínio lógico em exemplos com descrições médias, mas ainda há espaço para melhorias em descrições mais longas.

carregar

Acordado

Clique em "Ler o texto original" para pular para 00:41:05

Você pode ver o replay!

Artigos recomendados de edições anteriores

4998c74f3d1f6dd03ab96d587e758bd2.jpeg

Lembre-se de nos seguir! Novos conhecimentos todos os dias!

 Sobre AI TIME 

AI TIME teve origem em 2019, com o objetivo de levar adiante o espírito da especulação científica, convidar pessoas de todas as esferas da vida para explorar as questões essenciais da teoria da inteligência artificial, algoritmos e aplicações de cenários, fortalecer a colisão de ideias e conectar estudiosos globais de IA, especialistas e entusiastas da indústria, esperando Na forma de um debate, exploramos a contradição entre a inteligência artificial e o futuro da humanidade e exploramos o futuro do campo da inteligência artificial.

Até o momento, a AI TIME convidou mais de 1.300 palestrantes nacionais e estrangeiros, realizou mais de 600 eventos e foi assistida por mais de 6 milhões de pessoas.

78fd05b7e02a5f3381c84e85984961af.png

Eu conheço você

olhar dentro

oh

~

ba7c30c283d5579ab4f3fbd8ee409aed.gif

Clique para ler o texto original  e assistir ao replay!

Acho que você gosta

Origin blog.csdn.net/AITIME_HY/article/details/132929705
Recomendado
Clasificación