Generación de datos de referencia de evaluación de la realidad del modelo de lenguaje

Resolución de problemas: el objetivo es abordar la propensión de los modelos de lenguaje a generar información errónea dentro de un dominio determinado. Los métodos de evaluación existentes para la generación de hechos solo se centran en los hechos del propio modelo de lenguaje, por lo que no tienen control sobre el conjunto de hechos evaluados y pueden subestimar los hechos raros e improbables.

Idea clave: Proponemos FACTOR: Corpus Transformation-Based Fact Evaluation, un método escalable para evaluar la factualidad de los modelos de lenguaje. FACTOR convierte automáticamente un corpus de hechos de interés en un punto de referencia, evaluando la propensión de un modelo de lenguaje para generar hechos reales frente a declaraciones similares pero incorrectas de un corpus. Se crearon dos puntos de referencia utilizando este marco: Wiki-FACTOR y News-FACTOR. Los resultados experimentales muestran que: (i) nuestras puntuaciones de referencia aumentan con el tamaño del modelo y funcionan mejor cuando los modelos de lenguaje se combinan con la recuperación; (ii) las puntuaciones de referencia se correlacionan con la perplejidad, pero ambas métricas no tienen un efecto significativo en la clasificación del modelo. (iii) cuando los puntajes de perplejidad y de referencia no concuerdan, este último refleja mejor la factualidad de la generación abierta, medida por anotadores humanos.

Otros aspectos destacados: los datos y el código están disponibles públicamente en https://github.com/AI21Labs/factor. Un aspecto destacado de este artículo es proponer un método escalable para evaluar la factualidad de los modelos de lenguaje, que puede convertir automáticamente el corpus factual en un punto de referencia para evaluar la factualidad de los modelos de lenguaje. Además, en este documento se proponen dos puntos de referencia: Wiki-FACTOR y News-FACTOR.

Acerca de los autores: los autores principales de este artículo son Dor Muhlgay, Ori Ram, Inbal Magar, Yoav Levine, Nir Ratner, Yonatan Belinkov, Omri Abend, Kevin Leyton-Brown, Amnon Shashua y Yoav Shoham. Provienen de instituciones como la Universidad Hebrea de Israel, la Universidad de Quebec y AI21 Labs. Sus trabajos representativos incluyen: "Aprender a optimizar las consultas de unión con aprendizaje de refuerzo profundo" de Dor Muhlgay, "Análisis de representaciones aprendidas por modelos de traducción automática neuronal" de Yonatan Belinkov y "Fundamentos de la teoría de juegos" de Kevin Leyton-Brown.

Estudios relacionados recientes incluyen: 1) "Evaluación de la consistencia fáctica del resumen de texto abstracto" (Yixin Liu et al., de la Universidad de Washington); 2) "Realidad o ficción: verificación de afirmaciones científicas" (Tal Schuster et al., de Israel Institute of Technology); 3) "Fact-checking Deep Learning in Medical Imaging" (Andreas Holzinger et al., de la Universidad de Graz).

Un punto de referencia de evaluación de hechos para modelos de lenguaje generativo Dor Muhlgay, Ori Ram, Inbal Magar, Yoav Levine, Nir Ratner, Yonatan Belinkov, Omri Abend, Kevin Leyton-Brown, Amnon Shashua, Yoav Shoham en Implementación de modelos de lenguaje (LM) antes de identificar un dominio particular, es importante medir su propensión a generar información objetivamente incorrecta en ese dominio. Los métodos de evaluación existentes para la generación de hechos se centran en hechos muestreados del propio LM, por lo que no pueden controlar el conjunto de hechos evaluados y pueden subestimar hechos raros e improbables. Proponemos FACTOR: Fact Evaluation via Corpus Transformation, un método escalable para evaluar la factualidad de los LM. FACTOR convierte automáticamente un corpus de hechos de interés en un punto de referencia para evaluar la propensión de un LM a generar hechos verdaderos frente a afirmaciones similares pero incorrectas de un corpus. Creamos dos puntos de referencia utilizando nuestro marco: Wiki-FACTOR y News-FACTOR. Mostramos que: (i) nuestro puntaje de referencia aumenta con el tamaño del modelo y mejora cuando el LM aumenta la recuperación; (ii) el puntaje de referencia se correlaciona con la perplejidad, pero estas dos métricas no siempre juegan un papel en la clasificación del modelo. ) cuando los puntajes de perplejidad y de referencia son inconsistentes, este último refleja mejor la factualidad de la generación abierta medida por anotadores humanos. Ponemos a disposición del público nuestros datos y código en https://github.com/AI21Labs/factor.

Supongo que te gusta

Origin blog.csdn.net/elinkenshujuxian/article/details/131735941
Recomendado
Clasificación