Chen Danqi redefine el problema de similitud de texto y propone que C-STS y GPT-4 no se pueden resolver bien

El trabajo de Chen Danqi es bueno. La similitud del texto anterior es básicamente solo una partitura, pero se puede dividir en muchas situaciones similares desde diferentes perspectivas. Esto es equivalente a redefinir la tarea. Además, la construcción de datos también se genera a través de modelos, todo es muy cómodo y rápido. El experimento final también muestra que GPT4 también comete errores de vez en cuando, y esta dirección de desarrollo se puede estudiar y discutir más a fondo.

Echemos un vistazo más de cerca al punto de vista del autor.

c9104b2e2112ec8240c6c42d8aec0daa.png

Documento: C-STS: Similitud textual semántica condicional
Dirección: https://arxiv.org/abs/2305.15093
Unidad: Princeton, Allen AI, etc.

Ingrese al grupo de PNL —> únase al grupo de intercambio de PNL

La similitud textual semántica (STS) ha sido una tarea fundamental en la PNL, midiendo el grado de similitud entre un par de oraciones, con aplicaciones en la recuperación de información, respuesta a preguntas y métodos de incrustación.

Sin embargo, esta es una tarea inherentemente ambigua, y la similitud de oraciones depende de aspectos específicos de interés.

d95a095d294dc12883b96c42c1450d81.png

Abordamos esta ambigüedad proponiendo una nueva tarea llamada Conditional STS ( C-STS ), que mide la similitud en términos (aquí condicionales) articulados por el lenguaje natural.

Por ejemplo, la similitud entre las oraciones " Jugador de la NBA tira un triple " y " Una persona lanza una pelota de tenis al aire " es mayor (hacia arriba) para la condición " movimiento de la pelota ". y menor " tamaño de bola " (una grande y otra pequeña).

C-STS tiene dos ventajas : (1) reduce la subjetividad y la ambigüedad de STS, y (2) se pueden usar diferentes condiciones para la evaluación de similitud de grano fino.

8199e12a73ac7fb9925d1f2de8bdbcda.png
Proceso de construcción inteligente de datos

C-STS contiene casi 20 000 instancias de diferentes dominios, y evaluamos varios modelos de última generación para demostrar que incluso los modelos de ajuste fino y aprendizaje contextual de mayor rendimiento (GPT-4, Flan, SimCSE) tienen Desafiante con una puntuación de correlación de Spearman de <50.

3422fd5aef396b27d809f2a49bb83484.png c615be6ef407687c81c6201e4549f8d3.png

Alentamos a la comunidad a evaluar sus modelos en C-STS para brindar una visión más completa de la similitud semántica y la comprensión del lenguaje natural.

Experimento y Análisis

de25c13a4e7641a1ac078361a86bb00d.png 51e8f3a5123237821f00098387b3f09f.png 5fd8a270706a774145d380c966319d95.png fec9358625fef3f5d4997a098a293791.png bf3c93d660ed51835d1067a4cf4dbe52.png

a9fe3db73a8b3a07f38345591596e998.png

Ingrese al grupo de PNL —> únase al grupo de intercambio de PNL

Supongo que te gusta

Origin blog.csdn.net/qq_27590277/article/details/132074344
Recomendado
Clasificación