Reducir el riesgo de alucinaciones en LLM: estrategias y técnicas prácticas

I. Introducción

En los últimos años, el rápido desarrollo de grandes modelos de lenguaje ha brindado muchas posibilidades para construir sistemas de IA más inteligentes y humanos. Los modelos de lenguajes grandes (LLM) como GPT-3.5, GPT-4, Bard, Claude 2 y LLaMa 2 han demostrado un gran potencial en aplicaciones de asistente personal o chatbot para generar respuestas fluidas y sorprendentes para responder a las preguntas de los usuarios.

Sin embargo, a medida que se vierten más fondos en el campo de la IA generativa, muchas nuevas empresas están adoptando estas tecnologías innovadoras. Aunque las respuestas generadas por estos modelos parecen realistas, todavía tienen una tendencia a alucinar o inventar respuestas. Esto puede dar lugar a que los usuarios reciban información incorrecta o engañosa, lo que en última instancia perjudica la experiencia y la confianza del usuario.

Para evitar problemas como este, necesitamos comprender mejor cómo funcionan los modelos de lenguaje grandes y mejorarlos con una supervisión mejorada a través de datos y algoritmos. Necesitamos desarrollar técnicas de aprendizaje autosupervisadas más potentes, conjuntos de datos más grandes y de mayor calidad y arquitecturas de modelos más avanzadas para reducir la probabilidad de que las redes neuronales produzcan información inexacta.

Aunque la tecnología LLM es muy prometedora, para aprovechar todo su potencial en aplicaciones prácticas, debemos abordar algunas cuestiones fundamentales. Una de las cuestiones más críticas es cómo evitar las alucinaciones en modelos de lenguaje grandes.

2. ¿Qué es la ilusión LLM?

LLM es un modelo de inteligencia artificial (IA) entrenado en conjuntos de datos de código y texto a gran escala para generar texto, traducir idiomas, escribir contenido creativo y responder preguntas de manera informativa. Sin embargo, LLM también es propenso a las llamadas "alucinaciones", es decir, a generar texto que en realidad es incorrecto o carece de sentido.

Las ilusiones surgen porque los datos recibidos por LLM suelen ser incompletos o contradictorios. Por lo tanto, pueden aprender a asociar ciertas palabras o frases con ciertos conceptos, incluso si esas conexiones son inexactas o demasiado precisas (es decir, inventan información que es verdadera pero que no debe compartirse). Esto puede hacer que LLM genere texto objetivamente incorrecto, demasiado indulgente o sin sentido.

La definición básica de alucinación se define en un artículo de investigación [1] publicado por el Centro de Investigación en Inteligencia Artificial (CAiRE) como " cuando el contenido generado no tiene sentido o no es fiel al contenido fuente proporcionado ". Con esta definición simple pero inclusiva en mente, veamos algunos ejemplos más.

P1: ¿Quién fue el maestro del Sr. Lu Xun cuando estudió medicina en Japón?

Obviamente la respuesta dada por GPT-4, las personas que no son conscientes de este hecho pueden pensar que es correcta. De hecho, el conjunto de datos en el que fue entrenado no contiene esta parte de la información, lo que hace que eventualmente proporcione una respuesta incorrecta. ... Volvamos de nuevo y veamos otro ejemplo.

P2: ¿Cuál es la relación entre Lu Xun y Zhou Shuren?

Esta es la respuesta dada por GPT-3.5. De la respuesta, podemos ver que el modelo básicamente creó un contenido para responder. Intentemos preguntarle a GPT-4 para ver si la respuesta es correcta.

Se descubrió que el significado de esta pregunta se reconoció con mucha precisión en GPT-4 y la respuesta fue completamente correcta, lo que muestra que GPT-4 ha aumentado el alcance de la adquisición de contenido de conocimiento y también se ha mejorado la capacidad de razonamiento y comprensión del modelo.

Aunque los ejemplos anteriores son ejemplos de alucinaciones utilizando el modelo OpenAI GPT, vale la pena señalar que este fenómeno también se aplica a muchos otros modelos LLM del mismo tipo, como Claude, Bard o LLama 2.

Entonces, ¿por qué ocurren las alucinaciones? Para explicar esto, primero comprendamos el principio de funcionamiento interno del modelo de lenguaje grande, y luego LLM comprenderá por qué ocurren las alucinaciones.

3. Principios básicos del LLM

Para comprender la causa de las alucinaciones, primero debemos comprender cómo funciona el LLM. Los principios básicos de los modelos grandes se presentaron por separado anteriormente. Aquellos que quieran comprender más pueden leer el artículo "Interpretación en profundidad de los principios básicos de las alucinaciones". ChatGPT". Aquí nos centraremos en LLM autorregresivo (como GPT-3 o GPT-4).

En un nivel básico, LLM representa cualquier fragmento de texto como una secuencia de tokens. Estos tokens pueden ser palabras, subpalabras o incluso caracteres. Independientemente de la estrategia de tokenización que utilice un LLM en particular, un LLM autorregresivo está capacitado para predecir con precisión el siguiente token en la secuencia de tokens.

En términos matemáticos, dada una secuencia de tokens T (1), T (2), ..., T (N), LLM aprende la distribución de probabilidad del siguiente token T (N+1) condicionada al token anterior:

Por ejemplo, considere la siguiente secuencia de tokens (en este caso, asumimos que los tokens son palabras):

Obviamente, después de que el token "va", hay muchas opciones para el siguiente token, como "ver una película" o "comer" son opciones válidas, y hay muchas otras opciones. De hecho, LLM aprende una distribución de probabilidad sobre todos los conjuntos posibles de los siguientes tokens:

Esta distribución de probabilidad asigna una probabilidad a cada token, y LLM toma muestras de esta distribución al seleccionar el siguiente token.

Por ejemplo, es más probable que LLM seleccione la palabra "comer" (con probabilidad de 0,4), seguida de "ver una película" (con probabilidad de 0,3), luego "dormir", y así sucesivamente. También hay palabras que es poco probable que sigan al token anterior y se les asignará una probabilidad muy baja (0,00001).

Una vez que se selecciona el siguiente token (suponiendo que se seleccione el token "comer"), se agrega a la secuencia existente de palabras y el proceso se repite hasta que se crea una oración o respuesta completa.

Entonces, la conclusión es: los grandes modelos de lenguaje son esencialmente grandes redes neuronales, condicionadas a todos los tokens anteriores, entrenadas para luego predecir la probabilidad del siguiente token.

Detectamos alucinaciones cuando las predicciones de un modelo de lenguaje contradicen nuestras expectativas, experiencia o conocimiento conocido, o cuando encontramos evidencia contrafáctica (secuencias de tokens de predicción) que contradicen esa respuesta.

4. ¿Por qué LLM produce alucinaciones?

Hay varios factores que causan alucinaciones en los modelos de IA, incluidos datos de entrenamiento sesgados o insuficientes, sobreajuste de los datos de entrenamiento, comprensión limitada del contexto, falta de conocimiento del dominio, ataques adversarios y arquitectura del modelo.

  • Datos de entrenamiento sesgados o insuficientes : un modelo de IA es tan bueno como los datos utilizados para el entrenamiento. Si los datos de entrenamiento están sesgados, incompletos o insuficientes, el modelo de IA puede producir alucinaciones debido a su comprensión limitada de los datos a los que tiene acceso. Esto es particularmente preocupante en el contexto del uso de datos abiertos de Internet para entrenar grandes modelos lingüísticos, donde la información sesgada y errónea abunda. Los LLM generalmente no dicen "No sé" cuando no tienen suficiente información. Por lo tanto, cuando LLM no tiene una respuesta, genera la respuesta más probable. Pero tenga en cuenta que "lo más probable" no significa necesariamente "real" y cuando se produce esta desalineación, el resultado final es una ilusión.

  • Sobreajuste : cuando un modelo de IA sobreajusta los datos de entrenamiento, puede comenzar a generar resultados que son demasiado específicos de los datos de entrenamiento y no se generalizan bien a datos nuevos. Esto puede hacer que el modelo genere resultados ilusorios o irrelevantes.

  • Ruido de datos : LLM está capacitado con grandes cantidades de datos, algunos de los cuales pueden contener inexactitudes. Estas imprecisiones pueden propagarse en el resultado del modelo.

  • Incapacidad para verificar hechos : LLM no tiene la capacidad de cotejar información o verificar hechos con fuentes confiables, lo que resulta en la posibilidad de generar información incorrecta o fabricada.

  • Falta de comprensión contextual : los modelos de IA que carecen de comprensión contextual pueden producir resultados fuera de contexto o irrelevantes. Esto puede hacer que el modelo genere resultados alucinógenos o sin sentido.

  • Conocimiento limitado del dominio : los modelos de IA diseñados para un dominio o tarea específica pueden sufrir alucinaciones al recibir información fuera de su dominio o tarea. Esto se debe a que pueden carecer del conocimiento o la experiencia necesarios para generar resultados relevantes. Esto ocurre cuando el modelo tiene una comprensión limitada de diferentes idiomas. Aunque un modelo puede entrenarse con un amplio vocabulario en varios idiomas, puede carecer del contexto cultural, la historia y los matices para unir conceptos de manera adecuada.

  • Ataques adversarios : a diferencia de la confrontación rojo-azul en la que se forma un equipo para "romper" el modelo y mejorarlo, los modelos de IA también son vulnerables a los ataques adversarios. Cuando un atacante malintencionado manipula deliberadamente las entradas de un modelo, puede provocar que genere resultados incorrectos o maliciosos.

  • Arquitectura del modelo : la arquitectura del modelo de IA también afecta la facilidad con la que ocurren las alucinaciones. Los modelos con más capas o más parámetros pueden ser más propensos a sufrir alucinaciones debido a una mayor complejidad.

Volviendo a lo que mencionamos anteriormente sobre el Sr. Lu Xun estudiando medicina en Japón, el modelo no entendió la información histórica del Sr. Lu Xun y dio una respuesta inexacta con bastante confianza con la información limitada que tenía.

A veces intentaremos utilizar Prompt Engineering para influir en el LLM haciéndole creer que está imitando un "rol" específico en una determinada perspectiva, lo que afectará la forma en que responde las preguntas.

Por ejemplo, cuando normalmente le pedimos a GPT que explique un concepto, si la persona que desea presentar tiene solo 4 años, esencialmente le está pidiendo a GPT que actúe como padre o maestro para explicar que este es un concepto complejo para niños pequeños:

5. El impacto de las alucinaciones en el LLM

5.1 Contenido tóxico o discriminatorio

Los datos de formación de LLM suelen estar llenos de estereotipos socioculturales debido a sesgos inherentes y falta de diversidad. Por lo tanto, LLM puede generar y reforzar estas ideas dañinas dirigidas a grupos vulnerables de la sociedad. Pueden generar contenido discriminatorio y de odio por motivos de raza, género, religión, etnia, etc.

5.2 Cuestiones de privacidad

Los LLM están capacitados en grandes corpus de capacitación, que a menudo contienen información personal de las personas. Estos modelos han violado la privacidad de las personas. Pueden revelar información específica, como números de Seguro Social, domicilios, números de teléfonos móviles y detalles médicos.

5.3 Desinformación e información falsa

Los modelos de lenguaje pueden generar contenido similar al humano que parece preciso pero que en realidad es incorrecto y no está respaldado por evidencia empírica. Esto podría ser accidental y generar información errónea, o podría haber intenciones maliciosas detrás de la difusión de información falsa. Si no se controla, puede dar lugar a tendencias económicas y políticas socioculturales adversas.

6. Cómo eliminar la ilusión del LLM

Todos los LLM sufren de alucinaciones porque están entrenados en grandes corpus de diversos conjuntos de datos que pueden contener datos incompletos, contradicciones, inconsistencias y otros sesgos. Eliminar la ilusión del LLM es un problema complejo, pero hay formas de minimizar su impacto. A continuación se muestran algunas posibles soluciones:

6.1 Aprendizaje por refuerzo mediante retroalimentación humana (RHLF)

Al incorporar la retroalimentación humana en el proceso de formación, se puede ayudar al LLM a identificar y corregir sus ilusiones subyacentes. Este enfoque puede mejorar continuamente el rendimiento del modelo de forma iterativa. OpenAI utiliza el aprendizaje por refuerzo de retroalimentación humana (RHLF) basado en el método InstructGPT, mientras que Stanford Alpaca y Databricks Dolly 2.0 utilizan el método de ajuste fino supervisado por autoinstrucciones.

6.2 Ajuste de parámetros de temperatura

Al compilar con LLM (ya sea el modelo HuggingFace o la API OpenAI GPT-3), hay varios parámetros disponibles, incluida la temperatura . La Temperatura de un modelo se refiere al valor escalar utilizado para ajustar la distribución de probabilidad predicha por el modelo. En el caso de LLM, el parámetro de temperatura determina el equilibrio entre adherirse a lo que el modelo ha aprendido de los datos de entrenamiento y generar respuestas más diversas o creativas. En general, es más probable que las respuestas creativas impliquen alucinaciones.

6.3 Usar base de datos vectorial

Las bases de datos vectoriales son una tecnología emergente que se puede utilizar para almacenar y recuperar representaciones vectoriales semánticas a gran escala. Al comparar el resultado de LLM con datos verificados en una base de datos vectorial, se puede reducir la aparición de alucinaciones y se pueden proporcionar respuestas más confiables y precisas.

6.4 Autoexamen (autocrítica, autorreflexión)

En general, a través de técnicas como indicaciones inteligentes y cadenas de pensamientos (COT), los LLM han demostrado que pueden desempeñarse mejor en tareas más complejas.

6.4.1 、 SmartGPT (SmartLLMCain):

SmartLLMCain es una cadena autocrítica diseñada para ayudar a resolver problemas complejos. En lugar de realizar una sola pasada utilizando un modelo de lenguaje (LLM), sigue un proceso de tres pasos:

  • Ideas: las indicaciones del usuario pasan por el LLM varias veces (n veces) para generar n propuestas de salida, llamadas "ideas". El valor de n se puede ajustar como parámetro.

  • Crítica: Todas las ideas generadas por LLM se evalúan para detectar posibles fallas. Elija la mejor idea basándose en esta crítica.

  • Solución: LLM intenta mejorar las ideas seleccionadas en el paso anterior y presentarlas como resultado final. Vea el vídeo del autor de SmartGPT para obtener más detalles. LangChain tiene una implementación de SmartGPT que puede ayudarlo a comenzar en segundos.

6.4.2 Cadena de lenguaje auxiliar del programa causal (CPAL)

CPAL se basa en la cadena de lenguaje del lenguaje de asistencia de programación (PAL) para representar la estructura causal de un mensaje como un gráfico de causa y efecto, o DAG (ver en langchain). En este enfoque, similar a un agente, el LLM puede acceder a la ejecución de código para obtener comentarios sobre problemas más complejos que requieren operaciones matemáticas.

6.5 Generación mejorada de recuperación (RAG)

Esta tecnología nos permite recuperar información relevante de bases de conocimiento externas y proporcionar esta información a LLM. Al proporcionar acceso a datos relevantes en la base de conocimientos en el momento de la predicción (sumados a sugerencias), podemos transformar un problema de generación pura en una búsqueda más simple o un problema de resumen basado en los datos proporcionados.

Sin embargo, incluso con RAG, LLM es propenso a sufrir alucinaciones, como se muestra a continuación, según un estudio publicado recientemente por investigadores de la Universidad de Ohio:

Como puede ver arriba, los modelos de lenguaje aún pueden producir alucinaciones cuando se trata específicamente de razonamientos más matemáticos que tratan con símbolos.

6.6 、 Ingeniería rápida

La ingeniería rápida es un método común para mejorar la respuesta LLM y puede reducir las alucinaciones al proporcionar información contextual más explícita. A continuación se muestran algunos métodos comunes:

6.6.1 Un trasfondo más claro

Proporcionar indicaciones claras y específicas puede ayudar a LLM a generar los resultados más relevantes y precisos. Utilice preguntas específicas o especifique un área o tema específico. Por ejemplo, en lugar de preguntar "¿Qué es un Jaguar?", cuando podemos referirnos a un coche o a un animal, deberíamos preguntar: "¿Cuáles son los diferentes modelos de Jaguar?".

6.6.2 Contexto más amplio

Un contexto más extenso no reduce directamente las alucinaciones, pero puede proporcionar más información y contexto, aumentando así la probabilidad de que el LLM genere una respuesta precisa.

6.6.3 Inyección de contexto

Al interactuar con el LLM, se proporciona al modelo el historial de conversaciones anteriores o información contextual relevante. De esta manera, LLM puede comprender mejor el contexto de la pregunta y generar respuestas más precisas y consistentes.

6.6.4 Usar múltiples indicaciones

Al proporcionar a LLM múltiples indicaciones diferentes, se pueden obtener respuestas más completas y diversas. Esto ayuda a reducir el impacto de los sesgos únicos en el modelo.

6.5 Ajuste de modelos más pequeños para detectar alucinaciones

Se puede utilizar el ajuste de un modelo LLM más pequeño para evaluar si la fuente admite la respuesta LLM. Este método puede comprobar si la respuesta del LLM es razonable mediante la evaluación de atribución semántica. Ajustar el LLM puede llevar más tiempo, pero parece funcionar bastante bien (pero no elimina por completo la ilusión). Por ejemplo, puede aprovechar beir_fever o AttrScore para ajustar un modelo más pequeño que califique la atribución de las respuestas de LLM. Consulte también este repositorio para obtener algunos detalles de implementación.

Cabe señalar que eliminar la ilusión de un LLM es un proceso continuo que requiere mejora y optimización continuas. Al mismo tiempo, los usuarios también deben permanecer atentos y revisar y verificar el contenido generado por LLM para garantizar su precisión y confiabilidad.

7. Resumen

En resumen, las alucinaciones siguen siendo un desafío importante cuando se utilizan modelos de lenguaje grandes (LLM) en aplicaciones del mundo real. La generación de información falsa por parte de LLM puede tener consecuencias desastrosas, especialmente en los sistemas de cara al cliente. Sin embargo, existen algunos métodos eficaces para minimizar las alucinaciones y mejorar la fiabilidad de las respuestas del LLM.

Específicamente, ajustar los parámetros de generación de LLM, emplear diferentes técnicas de decodificación e implementar mecanismos de autoverificación puede proporcionar un mejor control sobre la salida y mejorar la calidad de la respuesta. Tecnologías como las cadenas SmartLLMChain y CPAL ofrecen formas prometedoras de reducir las alucinaciones refinando las ideas generadas e incorporando estructuras causales. Además, la generación de aumento de recuperación (RAG) puede mejorar la respuesta de LLM al recuperar documentos relevantes, pero se necesita precaución ya que aún pueden ocurrir alucinaciones, especialmente en el razonamiento matemático.

Para mejorar aún más la confiabilidad de las respuestas de LLM, se recomienda diseñar y ajustar rápidamente LLM más pequeños para la evaluación de atribución. En general, al implementar estos métodos y tener en cuenta las limitaciones de LLM, los desarrolladores pueden mitigar el riesgo de alucinaciones y garantizar una generación de información más precisa y confiable. La investigación y el desarrollo continuos en esta área son esenciales para mejorar el rendimiento de LLM y maximizar su potencial en aplicaciones del mundo real.

8. Referencias

Karpukhin, Vladimir y otros. " Recuperación de pasajes densos para responder preguntas de dominio abierto ". Preimpresión de arXiv arXiv:2004.04906 (2020). Lewis, Patricio y col. " Generación de recuperación aumentada para tareas de PNL con uso intensivo de conocimiento ". Avances en sistemas de procesamiento de información neuronal 33 (2020): 9459-9474. Gao, Luyu, et al. HYDE "Recuperación densa precisa de disparo cero sin etiquetas de relevancia". Preimpresión de arXiv arXiv:2212.10496 (2022). Ma, Kaixin y col. " Respuesta de preguntas de dominio abierto mediante una cadena de razonamiento sobre conocimientos heterogéneos ". Preimpresión de arXiv arXiv:2210.12338 (2022).

Lewis, Patricio y col. " Generación de recuperación aumentada para tareas de PNL con uso intensivo de conocimiento ". Avances en sistemas de procesamiento de información neuronal 33 (2020): 9459-9474.

Hu, Ziniu y col. " REVEAL: Preentrenamiento de lenguaje visual con recuperación aumentada con memoria de conocimiento multimodal de múltiples fuentes ". Preimpresión de arXiv arXiv:2212.05221 (2022).

Supongo que te gusta

Origin blog.csdn.net/FrenzyTechAI/article/details/132695512
Recomendado
Clasificación