Deep Learning Made Easy: ¿Cuál es la diferencia entre el proceso RLHF utilizado por chatGPT y el ajuste fino?

¿Se pregunta cuál es la diferencia entre el método RLHF y el método de ajuste fino? El ajuste fino es en realidad el primer paso en el método RLHF. sigue leyendo.

Se ha demostrado que el aprendizaje por refuerzo con retroalimentación humana (RLHF) es una forma efectiva de alinear el modelo subyacente con las preferencias humanas. Esta técnica, que implica el ajuste fino del modelo, ha jugado un papel clave en los avances recientes en inteligencia artificial, como lo demuestra el éxito del modelo ChatGPT de OpenAI y el modelo Claude de Anthropic.

La implementación de RLHF trae mejoras sutiles pero importantes en la usabilidad y el rendimiento del modelo. Estas mejoras incluyen mejorar el tono, mitigar el sesgo y los elementos dañinos, y habilitar la generación de contenido específico del dominio. Este artículo profundizará en la aplicación de RLHF en el ajuste fino de los modelos de lenguaje grande (LLM).

Comprender el aprendizaje por refuerzo a partir de la retroalimentación humana

RLHF surgió de un desafío fundamental en el aprendizaje por refuerzo: la definición de la complejidad, ambigüedad y dificultad de los objetivos para muchas tareas de aprendizaje por refuerzo. Este dilema conduce a una desalineación entre nuestros valores y los objetivos de los sistemas de RL, como se destaca en el artículo Deep Reinforcement Learning from Human Preferences.

Muchas aplicaciones de IA, especialmente en la empresa, se enfrentan a objetivos difíciles de especificar. Por ejemplo, en la curación de contenido, el contexto de política detallado de curación puede entrar en conflicto con las decisiones algorítmicas de aplicación. Asimismo, cuando se trata de la generación de contenido, como los agentes de soporte automatizados, también es difícil lograr la mejor calidad. Si bien la IA generativa puede permitir la creación de contenido rentable, las preocupaciones sobre el estilo de la marca y la consistencia del tono están frenando la adopción generalizada. ¿Cómo puede el equipo establecer una función de recompensa que esté alineada de manera consistente con las pautas de la marca? En situaciones donde los riesgos asociados con el contenido generado por IA son altos, optar por un chatbot definitivo o un agente de soporte humano puede ser una buena inversión.

En el aprendizaje por refuerzo tradicional, una función de recompensa explícita puede guiar el algoritmo. Sin embargo, en tareas más complejas, determinar una función de recompensa adecuada puede ser un desafío. En este caso, las preferencias humanas pueden guiar efectivamente al sistema de IA para tomar la decisión correcta. Esto se debe a que las personas, incluso sin conocimientos especializados, tienen la comprensión intuitiva para navegar por tareas complejas y situacionales. Por ejemplo, dada una muestra de la copia de marketing de una marca, una persona puede evaluar fácilmente qué tan bien se alinea la copia generada por IA con el tono previsto de la marca. Sin embargo, el principal desafío radica en el tiempo y el costo necesarios para incorporar las preferencias humanas directamente en el proceso de capacitación del aprendizaje por refuerzo. Como se indica en el documento Deep Reinforcement Learning from Human Preferences: "El uso directo de la retroalimentación humana como una función de recompensa es prohibitivamente costoso para los sistemas de aprendizaje por refuerzo que requieren cientos o miles de horas de experiencia".

Para abordar este desafío, los investigadores introdujeron el aprendizaje de refuerzo a partir de la retroalimentación humana (RLHF), que implica entrenar un predictor de recompensa o un modelo de preferencia para estimar las preferencias humanas. El uso de un predictor de recompensas mejora significativamente la rentabilidad y la escalabilidad del proceso en comparación con proporcionar comentarios humanos directamente al algoritmo RL.

Proceso RLHF: Perspectivas de OpenAI

Mejora de modelos de lenguaje grande con RLHF

RLHF es una poderosa herramienta para mejorar la utilidad, la precisión y reducir el sesgo dañino de los modelos de lenguaje grandes. Una comparación de GPT-3 e InstructGPT (un modelo perfeccionado con RLHF) realizada por investigadores de OpenAI mostró que los anotadores "prefieren significativamente" el resultado de InstructGPT. InstructGPT también demuestra mejoras sobre GPT-3 en términos de evaluación de autenticidad y nocividad. De manera similar, Anthropic documentó beneficios similares en un artículo de investigación de 2022, y señaló que "RLHF proporciona una mejora espectacular tanto en las propiedades beneficiosas como en las inofensivas en comparación con los modelos extendidos simples".

Exploremos el flujo de trabajo de RLHF para realizar ajustes.

Paso 1: recopilar datos de demostración y entrenar una política supervisada

Para comenzar a ajustar un modelo de lenguaje grande (LLM), el primer paso es recopilar un conjunto de datos llamado datos de demostración. Este conjunto de datos contiene señales de texto y sus salidas correspondientes, que representan el comportamiento deseado de los modelos ajustados. Por ejemplo, en una tarea de resumen de correo electrónico, el aviso podría ser el correo electrónico completo y la finalización podría ser un resumen de dos oraciones. En una tarea de chat, el aviso podría ser una pregunta y la parte de finalización podría ser la respuesta ideal.

Los datos de demostración se pueden recopilar de varias fuentes, como datos existentes, equipos de anotación o incluso datos generados a partir del propio modelo, como lo muestra el concepto de modelos de lenguaje autorreferencial y directivas autogeneradas. De acuerdo con las pautas de ajuste fino de OpenAI, generalmente se requieren unos pocos cientos de ejemplos de alta calidad para un ajuste fino exitoso. El rendimiento del modelo tiende a escalar linealmente con el tamaño del conjunto de datos. Es importante revisar manualmente los conjuntos de datos de demostración para garantizar la precisión, evitar el contenido dañino, mitigar el sesgo y proporcionar información útil, como sugieren los investigadores de OpenAI.

Plataformas como OpenAI y Cohere brindan guías detalladas sobre el ajuste fino de modelos de idiomas grandes mediante el aprendizaje supervisado.

Paso 2: recopile datos de comparación y entrene el modelo de recompensa

Una vez que un modelo de lenguaje grande se ha ajustado con precisión mediante el aprendizaje supervisado, puede generar tareas específicas completadas de forma autónoma. La siguiente etapa del proceso RLHF consiste en recopilar comentarios humanos en forma de comparaciones con las partes completadas de la generación del modelo. Estos datos de comparación luego se usan para entrenar el modelo de recompensa, que se usará para optimizar el modelo de aprendizaje supervisado ajustado a través del aprendizaje por refuerzo (como se describe en el paso 3).

Para generar datos comparativos, un equipo de anotaciones clasifica las múltiples terminaciones generadas por el modelo. Los anotadores clasifican estas finalizaciones de mejor a peor. El número de partes completas puede variar desde una simple comparación lado a lado hasta una secuencia de tres o más partes completas. Durante el ajuste fino de InstructGPT, a OpenAI le resultó efectivo mostrar a los anotadores un rango de 4 a 9 partes completas para la clasificación.

Existen proveedores o herramientas de terceros que pueden ayudar con la tarea de comparación, ya sea cargando directamente las terminaciones del modelo o mediante puntos finales del modelo para la generación en tiempo real.

La comparación de los LLM ajustados con los puntos de referencia es crucial para evaluar su autenticidad, beneficios, sesgos y daños. Se pueden usar los puntos de referencia estándar de LLM, como TruthfulQA, el punto de referencia de sesgo orientado a la respuesta a preguntas y RealToxicityPrompts para evaluar la nocividad.

Paso 3: Optimización de la política supervisada mediante el aprendizaje por refuerzo

En este paso, la línea base de aprendizaje supervisado que representa el LLM ajustado se optimiza aún más mediante el uso de algoritmos de aprendizaje por refuerzo (RL). Una clase notable de algoritmos de RL desarrollados por OpenAI es la optimización de políticas próximas (PPO). Los detalles sobre el algoritmo PPO se pueden encontrar en el sitio web de OpenAI.

El proceso de aprendizaje por refuerzo alinea el comportamiento de la política supervisada con las preferencias expresadas por los anotadores. A través de las iteraciones de los pasos 2 y 3, el rendimiento del modelo se puede mejorar continuamente.

Lo anterior es el flujo de trabajo de ajuste fino de un modelo de lenguaje grande usando RLHF. Al combinar el aprendizaje supervisado y el aprendizaje por refuerzo, el método RLHF puede hacer que el modelo esté más en línea con las preferencias e intenciones humanas, mejorando así la usabilidad, el rendimiento y la calidad del modelo. Este enfoque ha jugado un papel clave en el éxito de modelos como ChatGPT y Claude, y ha mostrado un gran potencial para lograr varios objetivos comerciales.

Cabe señalar que el método RLHF no se limita a la puesta a punto de grandes modelos de lenguaje, sino que también se puede aplicar a otros campos y tareas, como sistemas de recomendación, control de robots, etc. Al combinar la retroalimentación humana y el aprendizaje por refuerzo, RLHF proporciona un enfoque poderoso para abordar el difícil problema de definir funciones de recompensa en tareas complejas, mejorando así el rendimiento y la adaptabilidad de los sistemas de IA.

leer

versión inglesa

concentrarse en

sin publico

Supongo que te gusta

Origin blog.csdn.net/robot_learner/article/details/131280499
Recomendado
Clasificación