Chen Danqi redefine o problema de similaridade de texto e propõe que C-STS e GPT-4 não podem ser bem resolvidos

O trabalho de Chen Danqi é bom. A semelhança do texto anterior é basicamente apenas uma partitura, mas pode ser dividida em muitas situações semelhantes de diferentes perspectivas. Isso equivale a redefinir a tarefa. Além disso, a construção dos dados também é gerada por meio de modelos, tudo de forma muito prática e rápida. O experimento final também mostra que o GPT4 também comete erros de vez em quando, e essa direção de desenvolvimento pode ser mais estudada e discutida.

Vamos dar uma olhada mais de perto no ponto de vista do autor.

c9104b2e2112ec8240c6c42d8aec0daa.png

Artigo: C-STS: Similaridade textual semântica condicional
Endereço: https://arxiv.org/abs/2305.15093
Unidade: Princeton, Allen AI, etc.

Entre no grupo de PNL —> junte-se ao grupo de intercâmbio de PNL

A similaridade textual semântica (STS) tem sido uma tarefa fundamental na PNL, medindo o grau de similaridade entre um par de sentenças, com aplicações em recuperação de informações, respostas a perguntas e métodos de incorporação.

No entanto, esta é uma tarefa inerentemente ambígua, e a similaridade de sentenças depende de aspectos específicos de interesse.

d95a095d294dc12883b96c42c1450d81.png

Abordamos essa ambigüidade propondo uma nova tarefa chamada STS condicional ( C-STS ), que mede a similaridade em termos (aqui, condicional) articulados pela linguagem natural.

Por exemplo, a similaridade entre as sentenças “ jogador da NBA atira uma bola de três pontos ” e “ uma pessoa joga uma bola de tênis para o alto ” é maior (para cima) para a condição “ movimento da bola ”. e menor " tamanho da bola " (uma grande e uma pequena).

O C-STS tem vantagens duplas : (1) reduz a subjetividade e a ambigüidade do STS e (2) diferentes condições podem ser usadas para avaliação de similaridade refinada.

8199e12a73ac7fb9925d1f2de8bdbcda.png
Processo de construção inteligente de dados

O C-STS contém quase 20.000 instâncias de diferentes domínios e avaliamos vários modelos de última geração para demonstrar que mesmo os modelos de ajuste fino e aprendizado contextual de melhor desempenho (GPT-4, Flan, SimCSE) têm Desafiador com uma pontuação de correlação de Spearman <50.

3422fd5aef396b27d809f2a49bb83484.png c615be6ef407687c81c6201e4549f8d3.png

Incentivamos a comunidade a avaliar seus modelos no C-STS para fornecer uma visão mais abrangente da similaridade semântica e da compreensão da linguagem natural.

Experimento e Análise

de25c13a4e7641a1ac078361a86bb00d.png 51e8f3a5123237821f00098387b3f09f.png 5fd8a270706a774145d380c966319d95.png fec9358625fef3f5d4997a098a293791.png bf3c93d660ed51835d1067a4cf4dbe52.png

a9fe3db73a8b3a07f38345591596e998.png

Entre no grupo de PNL —> junte-se ao grupo de intercâmbio de PNL

Acho que você gosta

Origin blog.csdn.net/qq_27590277/article/details/132074344
Recomendado
Clasificación