Interpretación del artículo: Modelos de lenguaje mejorados con factualidad para la generación de textos abiertos

Interpretación del artículo: Modelos de lenguaje mejorados con factualidad para la generación de textos abiertos

imagen.png

Github: https://github.com/nayeon7lee/FactualityPrompt

1. Motivación

  • Los modelos de lenguaje pre-entrenados a gran escala han mostrado resultados sorprendentes en la PNL y se han convertido en uno de los principales métodos. Sin embargo, los modelos grandes todavía tienen el problema de la inexactitud de los hechos, y muchos trabajos existentes han comenzado a explorar los problemas de los hechos de los modelos grandes;
  • Sin embargo, estos trabajos se centran en la fidelidad (o factualidad) de los modelos lingüísticos ajustados para una tarea posterior específica (es decir, la coherencia fáctica entre los textos de origen y de destino). Se han realizado pocas exploraciones para abordar errores fácticos en modelos de lenguaje previamente entrenados para la generación general de texto abierto, donde el objetivo es generar continuaciones coherentes a partir de un contexto dado (por ejemplo, casos de uso en GPT-2);
  • Una de las formas más efectivas de mejorar la factualidad del modelo es introducir una base de conocimiento externa. Una estructura o estructura gráfica representa el conocimiento y lo combina con el contexto para lograr la mejora del conocimiento, la otra se basa en el modo de mejora de recuperación de información, pero necesita introducir modelos adicionales, lo que aumenta la sobrecarga del modelo;
  • Este documento se centra en la evaluación de la generación de texto de dominio abierto y en la mejora de la factualidad de modelos grandes:
    • Construya un benchmark y diseñe un indicador de evaluación. Este punto de referencia y métrica evaluados automáticamente están altamente correlacionados con los humanos;
    • La factualidad del modelo más grande será mejor, especialmente el error a nivel de entidad puede reducirse del 63,69 % al 33,3 %;
    • Es más probable que la estrategia de muestreo del núcleo conduzca a alucinaciones, por lo que es necesario proponer una estrategia de muestreo para mejorar la decodificación objetivamente;
    • El efecto del entrenamiento previo directamente en los datos de texto reales no es obvio, por lo que debe optimizarse;
    • Después de usar algunas de las optimizaciones anteriores, el error a nivel de entidad se puede reducir aún más del 33,3 % al 14,5 %;

2. Indicadores de factualidad y evaluación de hechos

Un gran desafío en la actualidad es cómo evaluar la factualidad de los modelos, especialmente en el campo de la generación de texto abierto, que debe implicar localizar la posición del conocimiento real en innumerables conocimientos del mundo. Para recursos de conocimiento, elegimos wikipedia.

Conjunto de pruebas FactualityPrompts

Construya principalmente indicaciones fácticas y no fácticas.
imagen.png
El conjunto de validación del conjunto de datos FEVER se selecciona como datos de evaluación.

FEVER es un conjunto de datos de verificación de hechos que consta de afirmaciones APOYADAS, REFUTADAS o no verificables (SIN SUFICIENTE INFORMACIÓN) por documentos de Wikipedia. Estas afirmaciones son creadas por anotadores a quienes se les pidió que modificaran o parafrasearan las oraciones de Wikipedia. Aprovechamos las afirmaciones APOYADAS y REFUTADAS del conjunto de validación FEVER

Trabajo relacionado con FEVER: "FEVER: un conjunto de datos a gran escala para la extracción y verificación de hechos"

Conocimiento de la verdad fundamental

Cuando el modelo genera un fragmento de texto, debemos preparar el conocimiento fáctico relevante para evaluar la factualidad de este texto.
Dividimos el conocimiento en dos tipos: a nivel de documento y a nivel de oración:

  • conocimiento del documento: use directamente el documento de wikipedia como conocimiento;
  • Conocimiento de oraciones: calcule la similitud a través de TF-IDF o sentenciaTransformer, y recuerde oraciones con alta similitud de wikipedia como candidatas;

Métrico

(1) Métrica relacionada con NE
Si el modelo genera un texto breve que contiene una entidad, pero esta entidad no ha aparecido en el conocimiento de la verdad del terreno, pensamos que esta entidad es una ilusión.

相关论文:Coherencia fáctica a nivel de entidad del resumen de texto abstractivo

Error NE : un modelo está alucinando (cometiendo errores fácticos) si genera un NE que no aparece en la fuente de conocimiento de la verdad básica.
NEER = ∣ HALLNE ∣ ∣ ALLNE ∣ NE_{ER}=\frac{|HALL_{NE}|}{|ALL_{NE}|}NE _ES=A L LNOH A L LNO

  • ALLNE ALL_{NE}TODO _ _NORepresenta todas las entidades contenidas en el texto generado por el modelo grande
  • HALLNE HALL_{NE}H A L LNOsignifica aparecer en ALLNE ALL_{NE}TODO _ _NOPero no hay ninguna entidad que corresponda al conocimiento de la verdad fundamental en la muestra actual;

Juzgue las entidades en el texto generado y si existen en el conocimiento de la verdad del terreno, y use el espacio para la coincidencia de entidades.

Cuanto más pequeño sea el indicador, mejor.

(2) Relación de implicación
se refiere a la idea de NLI, es decir, juzgar si existe una relación de implicación entre el texto generado por el modelo y el conocimiento de la verdad de fondo.
E ntail R = ∣ ENTAIL gen ∣ ∣ ALL gen ∣ Entail_{R}=\frac{|ENTAIL_{gen}|}{|ALL_{gen}|}Ent ai l _ _R=A L Lg e nENT A I Lg e n

  • TODOS los gen ALL_{gen}TODO _ _g e nIndica todo el texto generado por el modelo actual;
  • ENTAIL gen ENTAIL_{gen}ENT A I Lg e nIndica que hay un conjunto de implicaciones en el texto generado y fundamenta el conocimiento de verdad;

El modelo NLI selecciona directamente el modelo NLI existente basado en RoBERTa ajustado en MNLI: https://pytorch.org/hub/pytorch_fairseq_roberta/

Cuanto más grande sea el indicador, mejor

(3) Evaluación de calidad de generación

  • Fluidez: utilizar directamente el índice de perplejidad PPL;
  • Diversidad: use N-Gram (4-Gram);
  • Repetición: La medición del problema de la degeneración, del artículo "El curioso caso de la degeneración del texto neuronal"

Análisis de correlación de los indicadores de evaluación
¿Están los dos indicadores de conocimiento propuestos anteriormente correlacionados con la evaluación fáctica humana? Seleccionamos aleatoriamente 200 muestras, y obtuvimos los dos indicadores de NE y Entail, y también pedimos a los anotadores que puntuaran el contenido generado por las muestras desde estos dos aspectos; la correlación
con humanos se muestra en la figura:
imagen.png

Prueba previa

imagen.png

  • Cuanto mayor sea el tamaño del modelo, mejor será la factualidad del modelo;
  • Ya sea que se trate de un aviso fáctico o un aviso no fáctico, conducirá a una generación no fáctica;
  • Aunque la decodificación del núcleo puede mejorar la diversidad del modelo y reducir la tasa de repetición, también reducirá la factualidad de la generación del modelo;

Realizamos un análisis cualitativo de los errores fácticos generados por el 530B LM codicioso para comprender cuáles son los errores restantes cuando la aleatoriedad de las opciones de decodificación está estrictamente restringida.

3. Método

Muestreo de núcleo fáctico

Para poder compensar la calidad de la generación (diversidad y repetición) y la factualidad, necesitamos mejorar las estrategias de muestreo de generación existentes.

La generación del modelo se genera carácter a carácter, por lo que si el modelo genera texto sin ningún prefijo, algunas palabras en la etapa inicial de generación no tendrán alucinaciones, y con el proceso de generación continua, las palabras generadas posteriormente hacen que todo el texto alucine. .

No hay texto anterior al comienzo de una oración, por lo que es seguro que LM genere cualquier cosa siempre que sea gramatical y contextual.

Por ejemplo, "Samuel Witwer's father is" es un texto no fáctico, pero cuando se genera más tarde "Ministro luterano", conduce a problemas de alucinaciones.

Para paliar este problema, se propone una probabilidad de núcleo dinámico pppags :
pt = max ⁡ { ω , pags × λ t − 1 } p_t=\max\{\omega, p\times\lambda^{t-1}\}pagt=máximo { oh ,pag×yot 1 }

  • λ \lambdaλ -decay: Con el número de tokens generadosttt aumenta, decae gradualmenteppEl valor de p ;
  • páginasp -reset: cuando se genera una oración,ppEl valor de p variará debido attse vuelve pequeño con el aumento de t , al generar una nueva oración, se espera queppp puede restaurarse a su valor original;
  • ω \ omegaω -ligado: Para evitarppSi el decaimiento de p es demasiado pequeño, establezca un límite inferior;

Diferentes ablaciones y resultados experimentales correspondientes a diferentes indicaciones:
imagen.png
imagen.png

  • Diferentes valores de hiperparámetro tendrán diferentes efectos.Se puede encontrar que el método del núcleo fáctico puede equilibrar bien la factualidad y la diversidad.
  • En comparación con greedy, los núcleos pueden mejorar indicadores como la diversidad, pero también exacerban el problema de las alucinaciones; a nivel de factualidad, el núcleo fáctico puede acercarse o incluso superar a greedy, y aunque la diversidad y la repetición no son tan buenas como el núcleo, son mucho más que codicioso.

Preentrenamiento Continuo

(1) Anteponer TopicPreifx
Para algunos corpus, algunos contienen pronombres personales Él, Ella, etc., por lo que no se sabe quién es Él. Con el fin de reducir la memoria de la GPU, se suele utilizar el mecanismo de fragmentos, lo que hace que muchos documentos se dividan. Estos documentos divididos pueden tener solo algunos pronombres, lo que hará que la información se "fragmente" y aparezca en documentos independientes con contextos similares. Asociación incorrecta de entidades para .
Para solucionar este problema, se concatena un prefijo antes de cada documento. Por ejemplo, en el corpus de wikipedia, un título de página correspondiente a wikipedia (generalmente, el título de una página de wikipedia es una entidad) se empalma antes del texto después de cada tronco como un prefijo de tema. Eso es para decirle al modelo de qué entidad se trata este pasaje.
(2) Pérdida de finalización de oraciones
Argumentamos que los LM están capacitados de manera uniforme para predecir cada token de subpalabra en una oración, mientras que garantizar predicciones correctas para la segunda mitad de una oración es más crítico para la factualidad.
Por lo tanto, establezca una pérdida de finalización de oración en la fase de entrenamiento. Para una oración, se obtiene un punto de división y la pérdida se calcula para la parte posterior al punto de división.
Hay tres estrategias para dividir puntos:
imagen.png
recomendamos usar la primera.
Los resultados experimentales son los siguientes:
imagen.png
Se puede encontrar que cuando el Núcleo Factual y las dos estrategias de Pre-entrenamiento Continuo se usan juntas, se mejora la factualidad del modelo.
Se puede considerar que la pérdida de finalización de la oración hace que el modelo preste más atención a la segunda mitad de la oración, porque la primera mitad de la oración generalmente no produce alucinaciones, se puede considerar como la construcción del contexto en la etapa inicial, y el contenido generado de la segunda mitad tiene una alta probabilidad de ser generado en la primera mitad del conflicto, por lo que se espera que el modelo preste más atención a la generación de la segunda mitad .

Supongo que te gusta

Origin blog.csdn.net/qq_36426650/article/details/132001357
Recomendado
Clasificación