Laboratorio Wangxuan de la Universidad de Pekín | ¿Está muerto el resumen?

07ed8cf11a9d4261e8e9c7800b655121.png

Aprendizaje profundo Procesamiento del lenguaje natural
Autor original: Winnie

Un estudio reciente explora el desempeño de grandes modelos de lenguaje (LLM) en el campo del resumen de textos. Diseñaron un nuevo conjunto de datos para evaluar el desempeño de los LLM en diferentes tareas de resumen a través de una serie de experimentos de evaluación humana.

Sorprendentemente, la mayoría de los evaluadores humanos en realidad prefirieron los resúmenes generados por LLM incluso antes que los resúmenes de referencia estándar (escritos por humanos).

Este resultado significa que la intervención de los LLM puede hacer que muchos esfuerzos tradicionales de resumen de textos (ajustados en conjuntos de datos específicos) sean redundantes.

Por supuesto, también vemos direcciones de desarrollo futuras, incluida la creación de conjuntos de datos de evaluación de mayor calidad y el desarrollo de métodos de evaluación más confiables para mejorar el desempeño de LLM.

¡Echemos un vistazo más de cerca a la investigación!

dac81f6a8964300cec088595d46a88b6.png

Documento: El resumen está (casi) muerto
Enlace: https://arxiv.org/pdf/2309.09558.pdf

Ingrese al grupo de PNL—> Únase al grupo de intercambio de PNL

conjunto de datos

Para evitar la situación en la que los LLM hayan "visto" los datos durante la capacitación, los investigadores utilizaron los datos más recientes para crear conjuntos de datos de evaluación humana específicamente para cada tarea de resumen. El conjunto de datos incluye un total de 5 tareas, cada tarea contiene 50 muestras.

Al crear conjuntos de datos para tareas de resumen de conversaciones, noticias únicas y múltiples, tomaron prestados métodos de conjuntos de datos existentes como CNN/DailyMail, Hermann Multi-News y Mediasum. Por ejemplo, seleccionaron las últimas noticias del sitio web DailyMail para crear un conjunto de datos.

En la tarea de resumen en varios idiomas, primero utilizaron Google Translate para traducir el resumen de referencia del inglés al chino y luego realizaron una posedición para garantizar la precisión de la traducción.

Para la tarea de resumen de código, el equipo de investigación tomó prestado el método de Bahrami et al. en 2021 para crear un conjunto de datos y los archivos fuente se seleccionaron de programas en lenguaje Go.

Modelo

El equipo de investigación seleccionó tres modelos: GPT-3, GPT-3.5 y GPT-4. Además, también seleccionaron 1 o 2 modelos más pequeños que habían sido ajustados en conjuntos de datos de tareas específicas. Por ejemplo, BART y T5 fueron seleccionados en la tarea de noticias únicas, mientras que Pegasus y BART fueron seleccionados en la tarea de noticias múltiples.

Configuración experimental

Para evaluar de manera integral el desempeño de los LLM en diversas tareas de resumen, realizaron experimentos de evaluación humana y contrataron a dos anotadores para completar la tarea. Cada anotador fue responsable de 50 preguntas que implicaban comparaciones por pares de resúmenes generados por diferentes sistemas.

Durante el proceso de evaluación, los anotadores no sólo necesitan comparar resúmenes generados por diferentes sistemas de resumen, sino también realizar evaluaciones basadas en los artículos fuente. Para medir el acuerdo entre anotadores, calcularon el coeficiente kappa de Cohen y obtuvieron un resultado de 0,558, lo que indica un acuerdo aceptable entre anotadores.

Resultados experimentales

Comparación de la calidad general de los resúmenes.

En este experimento, evaluadores humanos comparan la calidad general de diferentes resúmenes, utilizando la métrica de evaluación WinRateNM, que es una métrica que indica la prioridad del sistema M en relación con el sistema N.

En todas las tareas, los resúmenes generados por los LLM superaron tanto a los resúmenes generados por humanos como a los resúmenes generados por modelos ajustados.

¿Por qué los LLM pueden superar a los resúmenes escritos por humanos? Las observaciones preliminares indican que los resúmenes generados por LLM exhiben un alto grado de fluidez y coherencia. Sin embargo, la relativa coherencia fáctica entre los resúmenes de LLM y los resúmenes escritos por humanos sigue siendo incierta.

e469ab001294af4a47c10583af6b824c.png

Comparación de la coherencia fáctica de los resúmenes

En un segundo experimento, exploraron más a fondo la cuestión de la coherencia fáctica de los resúmenes, analizando específicamente la "ilusión a nivel de oración" en los LLM y los resúmenes generados por humanos. Descubrieron que los resúmenes generados por humanos y los resúmenes generados por GPT-4 tenían un número similar o mayor de alucinaciones.

74ccc9d6317c4848a718899c26a8c54e.png

Dividieron estas alucinaciones en dos categorías: alucinaciones internas y alucinaciones externas. La ilusión interna se refiere a la inconsistencia entre la información fáctica en el resumen y el texto fuente, mientras que la ilusión externa se refiere al resumen que contiene alguna información fáctica que no está en el texto fuente. Encontraron una mayor proporción de alucinaciones extrínsecas en resúmenes generados por humanos, particularmente en tareas de resumen de códigos y noticias múltiples.

4d5ca91bbead12cc329c9e7c385a8ecb.png

Análisis comparativo

Resúmenes de referencia humana frente a resúmenes de LLM

Los resúmenes de referencias escritos por humanos adolecen de un problema específico en comparación con los resúmenes de LLM, a saber, la falta de fluidez. Los resúmenes de referencias escritos por humanos a veces contienen información incompleta y tienen fallas. Otro problema es la ilusión de resúmenes de referencias escritos por humanos.

Resumen generado por modelo ajustado versus resumen de LLM

En comparación con los resúmenes de LLM, encontramos que los resúmenes generados por modelos ajustados tienden a tener longitudes fijas y rígidas, mientras que los LLM pueden ajustar la longitud de salida en función de la cantidad de información de entrada. Además, cuando la entrada contiene varios temas, los resúmenes generados por modelos ajustados tienen una cobertura menor de estos temas, mientras que los LLM pueden capturar todos los temas al generar resúmenes.

Conclusión y direcciones futuras de investigación.

Los resultados de la evaluación humana muestran que la calidad de los resúmenes generados por los LLM supera a los resúmenes de referencia en muchos conjuntos de datos. Es previsible que a medida que los LLM sigan mejorando en el futuro, sus capacidades mejorarán aún más. Los métodos de resumen anteriores a menudo se adaptaban a categorías, dominios o idiomas específicos, lo que daba como resultado una generalización limitada y una importancia cada vez menor. Sin embargo, el autor cree que todavía vale la pena explorar las siguientes direcciones:

Conjunto de datos resumidos

El papel de los conjuntos de datos pasa del entrenamiento de modelos a las pruebas, lo que requiere resúmenes de referencia de mayor calidad. Los conjuntos de datos generados anteriormente se eliminarán gradualmente y los futuros resúmenes de referencia requerirán anotaciones por parte de expertos humanos.

La mayoría de los conjuntos de datos resumidos actuales están en inglés y se centran en artículos de noticias, artículos científicos o Wikipedia. El documento fuente es relativamente breve. Para evaluar completamente las capacidades de resumen de los LLM, es necesario incorporar otros tipos de datos diversos y otros lenguajes, especialmente aquellos con menos recursos. Además, es necesario incluir en el conjunto de datos documentos más extensos, como libros, para permitir una evaluación integral.

Resumen personalizado

Los LLM brindan la posibilidad de adaptar resúmenes a las preferencias de los usuarios individuales, su historial de lectura o su nivel de experiencia. Esto significa que el proceso de resumen se puede personalizar para adaptarse mejor a las necesidades y al contexto de cada usuario.

resumen en tiempo real

El resumen en tiempo real es otra área de desarrollo que puede desempeñar un papel clave en diversas situaciones, como la transmisión en vivo, las fluctuaciones del mercado de valores o el seguimiento de las redes sociales. La investigación puede centrarse en mejorar la puntualidad y la eficiencia de los LLM para satisfacer mejor esta necesidad.

resumen interactivo

Los autores enfatizan la importancia de desarrollar modelos que interactúen con los usuarios, solicitando aclaraciones o comentarios durante el proceso de resumen. Esto no sólo mejora la precisión del resumen sino que también aumenta su relevancia.

evaluación resumida

Las métricas de evaluación obsoletas como ROUGE ya no son adecuadas para el desarrollo del campo abstracto. Investigaciones recientes muestran que se espera que la futura tecnología de evaluación resumida automática dependa de los LLM. Al mismo tiempo, en la evaluación de resúmenes, se debe prestar más atención a la aplicación real y la utilidad de los resúmenes, en lugar de simplemente evaluar la calidad de los resúmenes basándose en ciertos indicadores.

Además, las futuras evaluaciones resumidas deberían centrarse más en la evaluación externa, es decir, medir la eficacia del resumen utilizándolo como insumo para otra tarea, como una sesión de preguntas y respuestas o una tarea de toma de decisiones, para verificar si se retiene información clave.


Ingrese al grupo de PNL—> Únase al grupo de intercambio de PNL

Supongo que te gusta

Origin blog.csdn.net/qq_27590277/article/details/133153929
Recomendado
Clasificación