Aprovechar el poder de los LLM en la práctica: una encuesta sobre ChatGPT y más allá

prefacio
Abstracto
INTRODUCCIÓN
GUÍA PRÁCTICA PARA MODELOS
- Modelos de lenguaje de estilo BERT: codificador-descodificador o solo codificador
- Modelos de lenguaje de estilo GPT: solo decodificador
GUÍA PRÁCTICA DE DATOS
GUÍA PRÁCTICA DE TAREAS DE PNL
OTRAS CONSIDERACIONES
CONCLUSIÓN Y RETOS FUTUROS
leer resumen

prefacio

Una guía para modelos de lenguaje a gran escala. La guía es detallada y se actualizará con el desarrollo del modelo a gran escala. Creo que los amigos que son nuevos en el modelo a gran escala definitivamente ganarán algo.

Abstracto

Este artículo proporciona una guía completa y práctica para profesionales de LLM o usuarios de sus tareas posteriores. En primer lugar, se presenta y resume el LLM existente, seguido de la discusión del impacto de los datos previos al entrenamiento, los datos de entrenamiento y los datos de prueba, y lo más importante, se discuten las condiciones de uso del LLM en varias tareas de PNL, tratando de comprender la importancia de datos y desafíos específicos de diferentes tareas de PNL. Puede encontrar una guía actualizada regularmente en https://github.com/Mooler0410/LLMsPracticalGuide .

INTRODUCCIÓN

El rápido desarrollo de los LLM ha mostrado un gran potencial en varias tareas de PNL; sin embargo, la forma de utilizar estos modelos de manera eficiente requiere una comprensión específica de sus capacidades y limitaciones, así como de los datos y las tareas involucradas. Qué LLM usar en un determinado escenario de tareas debe tener en cuenta factores como el tamaño del modelo, los requisitos informáticos y los modelos de capacitación de dominios específicos.
Para analizar las capacidades de los grandes modelos de lenguaje, los autores los comparan con modelos ajustados. Las definiciones de los dos son: Los LLM son enormes modelos de lenguaje entrenados previamente en conjuntos de datos a gran escala, y no necesitan ajustar los datos para tareas específicas. Los modelos de ajuste fino suelen ser de pequeña escala y se realizarán en tareas pequeñas. -conjuntos de datos específicos. Ajuste fino para optimizar su rendimiento en esa tarea.
Este artículo resume las siguientes pautas de práctica clave para el LLM:

Comprensión del lenguaje natural: aproveche la extraordinaria capacidad de generalización de los LLM frente a datos no distribuidos o muy pocos datos de entrenamiento;
Generación de lenguaje natural: use LLM para generar texto de alta calidad para diversas aplicaciones;
Tareas intensivas en conocimiento: para conocimiento de dominio específico o conocimiento general, utilice el amplio conocimiento almacenado por LLM;
Habilidades de razonamiento: comprender y utilizar las habilidades de razonamiento de los LLM para resolver problemas o mejorar la toma de decisiones.

GUÍA PRÁCTICA PARA MODELOS

Los modelos LLM se pueden dividir en dos categorías:

Modelo codificador-decodificador o modelo solo codificador
Modelo de lenguaje de solo decodificador

La figura anterior muestra el proceso de evolución del modelo de lenguaje, del cual se pueden extraer las siguientes observaciones:

El modelo de solo decodificador se ha convertido gradualmente en la corriente principal, y el modelo de solo codificador se ha desvanecido gradualmente;
OpenAI siempre ha sido líder en el campo LLM;
Meta ha hecho grandes contribuciones al LLM de código abierto;
Los LLM muestran una tendencia gradualmente cerrada, y la investigación basada en API puede convertirse en la corriente principal;
Los modelos de codificador-decodificador siguen siendo prometedores, pero su flexibilidad y generalización son limitadas.

La siguiente tabla es un resumen del LLM.

Modelos de lenguaje de estilo BERT: codificador-descodificador o solo codificador

El aprendizaje no supervisado del lenguaje natural está motivado por la fácil disponibilidad del lenguaje natural y el paradigma de entrenamiento no supervisado que puede hacer un mejor uso de conjuntos de datos a gran escala. Un método común es predecir las palabras de la máscara en la oración, este paradigma de entrenamiento se llama MLM, lo que permite que el modelo tenga una comprensión más profunda de la relación entre las palabras y el contexto. Los modelos representativos son BERT, RoBERTa y T5.

Modelos de lenguaje de estilo GPT: solo decodificador

Los modelos de lenguaje mejoran significativamente el rendimiento tanto de disparo pequeño como de disparo cero. Los modelos más exitosos son los modelos de lenguaje autorregresivo, que se entrenan generando la siguiente palabra dada una secuencia de palabras. Estos modelos se han utilizado ampliamente en tareas posteriores, como la generación de texto y la respuesta a preguntas. Los modelos representativos son GPT-3, OPT, PALM y BLOOM. GPT-3 es el primero en demostrar el rendimiento en escenarios de pocos disparos utilizando indicaciones y aprendizaje contextual.

GUÍA PRÁCTICA DE DATOS

El impacto de los datos en la efectividad del modelo comienza desde el entrenamiento previo hasta el entrenamiento y la inferencia.
Aquí hay tres puntos a tener en cuenta:

El rendimiento de generalización de los LLM frente a datos fuera de distribución, como ejemplos contradictorios y migración de dominio, es mejor que el de los modelos de ajuste fino;
Los LLM superan a los modelos ajustados cuando se trata de datos anotados limitados;
El modelo de preentrenamiento es mejor para elegir un modelo que esté cerca de la tarea posterior.

Datos de preentrenamiento

Los datos previos al entrenamiento juegan un papel importante en el desarrollo de LLM. La calidad, la cantidad y la diversidad de los datos previos al entrenamiento afectan significativamente el desempeño de los LLM. La importancia de los datos preentrenados radica en su capacidad para proporcionar modelos de lenguaje con una rica comprensión del conocimiento de las palabras, la gramática, la sintaxis y la semántica, así como la capacidad de reconocer el contexto y generar respuestas coherentes.

Ajuste de datos

Hay tres escenarios principales a considerar al usar un modelo para tareas posteriores: tiro cero, tiro pequeño y tiro grande.
**Datos con anotación cero:**Se ha demostrado que el uso de LLM es el método más adecuado en el escenario de muestra cero, y no hay un proceso de actualización de parámetros para evitar el olvido catastrófico.
**Menos datos anotados: **Los pequeños datos de muestra y las indicaciones de entrada se combinan directamente como aprendizaje contextual, lo que puede guiar de manera eficiente a los LLM para generalizar las tareas. Este método tiene un mejor rendimiento que los pequeños modelos de metaaprendizaje o aprendizaje por transferencia. .
**Una gran cantidad de datos etiquetados:** En este escenario, está bien ajustar el modelo o usar LLM. El modelo de ajuste fino puede adaptarse mejor a los datos, que se basa principalmente en el tipo de tarea.
En general, los LLM son más adecuados para escenarios generales, y los modelos de ajuste fino requieren datos etiquetados a gran escala.

Datos de prueba/datos de usuario

Al implementar LLM para manejar tareas posteriores, a menudo enfrentan desafíos provocados por diferencias en la distribución de datos de prueba y datos de capacitación, como migración de dominio, diferencias fuera de distribución e incluso ejemplos contradictorios. -Modelos de ajuste, pero los LLM pueden funcionar bien porque no hay un proceso de ajuste explícito. Además, el método de aprendizaje por refuerzo con retroalimentación humana (RLHF) mejora significativamente la capacidad de generalización de LLM.

GUÍA PRÁCTICA DE TAREAS DE PNL

Tareas tradicionales de NLU

Las tareas tradicionales de NLU incluyen clasificación de texto, reconocimiento de entidades nombradas, predicción de vinculación, etc. Muchas de estas tareas son pasos intermedios para grandes sistemas de inteligencia artificial.

Sin caso de uso

En la mayoría de las tareas de comprensión del lenguaje natural, si la tarea contiene datos ricamente etiquetados, los datos del conjunto de prueba también mantienen la misma distribución y el modelo ajustado sigue teniendo un buen rendimiento.
En las tareas de clasificación de texto, los LLM suelen ser inferiores a los modelos perfeccionados. Para la detección de toxicidad, por ejemplo, los LLM funcionan solo marginalmente mejor que la selección aleatoria, posiblemente debido al hecho de que la toxicidad se define por matices en las representaciones del lenguaje que los modelos grandes no pueden entender con precisión en función de la información proporcionada solo.
En el razonamiento del lenguaje natural o las tareas de respuesta a preguntas de conocimiento, los LLM y los modelos de ajuste fino tienen sus propias ventajas.
En las tareas de recuperación de información, LLM no se usa mucho porque LLM no puede convertir miles de textos candidatos en la forma de pocos o cero disparos requerida por LLM.
Para algunas tareas intermedias de muestra pequeña como NER, el rendimiento del ajuste fino del modelo en el conjunto de datos CoNLL03 es el doble del rendimiento de los LLM, pero estas tareas intermedias pueden desaparecer porque LLM puede procesar directamente las tareas de nivel superior sin la ayuda de estas tareas intermedias.
En general, ajustar el modelo es una mejor opción para la mayoría de las tareas tradicionales de NLU. La escala de los LLM es diez o incluso cien veces mayor que la del modelo ajustado, pero el rendimiento de algunas escenas no es tan bueno como el del modelo ajustado. El rendimiento de los LLM depende del diseño de la solicitud y, por supuesto, la brecha se puede cerrar mediante la ampliación.

caso de uso

Todavía hay algunas tareas de NLU adecuadas para LLM. La clasificación de texto misceláneo, por ejemplo, trata una amplia variedad de temas y clasificaciones que pueden no tener una relación clara. También contra NLI (ANLI), los LLM muestran un buen desempeño.

Tareas de generación

Las tareas de generación de lenguaje natural se dividen en dos grandes categorías:

La primera categoría se centra en convertir el texto de entrada en nuevas secuencias de símbolos, como tareas de traducción, tareas de resumen;
El segundo tipo de generación abierta tiene como objetivo generar descripciones de entrada de coincidencia de texto desde cero, como escribir correos electrónicos, artículos, etc.

caso de uso

Los modelos generativos requieren que el modelo tenga una comprensión integral del contenido de entrada y una cierta cantidad de creatividad. Los resultados de generación de LLM pueden no ser tan buenos como el modelo ajustado, pero funcionan mejor en continuidad y correlación.
Los LLM son particularmente buenos para traducir algunos textos en idiomas de bajos recursos a textos en inglés, y descubrieron que si se agregan más textos multilingües a los datos previos a la capacitación, la capacidad de traducción se puede mejorar aún más. Además, los LLM ya no se distinguen de la escena real en términos de texto generado abierto y también pueden funcionar bien para la reparación de código. Pero cómo encontrar errores sutiles en el código es un desafío para LLM en código.

Sin caso de uso

En la traducción automática rica en recursos, los modelos ajustados superan ligeramente a los LLM. En tareas de traducción de muy bajos recursos, los modelos ajustados superan significativamente a los LLM.

Tareas intensivas en conocimiento

Las tareas de PNL intensivas en conocimiento se refieren a una clase de tareas que dependen en gran medida del conocimiento previo y la experiencia específica del dominio.

caso de uso

Por lo general, los LLM tienen miles de millones de tokens y parámetros de capacitación, y tienen más conocimiento del mundo real que los modelos ajustados. Por lo tanto, se desempeña bien en tareas de respuesta a preguntas de libro cerrado y tareas de comprensión de idiomas de múltiples tareas a gran escala, que dependen en gran medida del conocimiento del mundo real.

Sin caso de uso

Cuando el conocimiento requerido no es el conocimiento sobre el mundo real aprendido por LLM, LLM no tiene ventajas obvias en estas tareas, como la comprensión de lectura automática, tareas que redefinen símbolos y tareas que requieren recuperación de conocimiento. un tamaño pequeño Puede hacer un buen uso del conocimiento recuperado, y esta tarea puede entenderse como una tarea de libro abierto.

Habilidades relacionadas con la escala

Ampliar la escala de los LLM puede mejorar en gran medida la capacidad de los modelos de lenguaje previamente entrenados, y algunos indicadores muestran que el rendimiento y la escala del modelo tienen una relación de ley de potencia. Aquí hay algunos puntos a tener en cuenta:

A medida que el tamaño del modelo aumenta exponencialmente, LLM es particularmente bueno en razonamientos como el razonamiento aritmético y el razonamiento de sentido común.
Muchas otras habilidades surgen del modelo, como el procesamiento de textos y las habilidades lógicas.
En muchos casos, el desempeño del modelo no mejorará constantemente con la expansión de la escala.

Caso de uso con razonamiento

El razonamiento implica comprender información, hacer inferencias y decisiones, y es un aspecto importante de la inteligencia humana. Las tareas de razonamiento existentes se pueden dividir en razonamiento de sentido común y razonamiento aritmético.
Razonamiento aritmético: la capacidad de razonamiento aritmético de LLM se beneficia enormemente de la escala del modelo. Para GPT-3, la capacidad de agregar dos dígitos se hace evidente cuando el número de parámetros supera los 13B. LLM ocasionalmente comete errores al realizar cálculos sin la ayuda de herramientas externas, pero la cadena de pensamiento (COT) puede aumentar significativamente el poder computacional de LLM.
Razonamiento de sentido común: el razonamiento de sentido común no solo requiere que el LLM memorice el conocimiento de los hechos, sino que también requiere que el LLM realice un razonamiento de varios pasos sobre los hechos. A medida que crece el tamaño del modelo, la capacidad de razonamiento de sentido común aumenta gradualmente.

Casos de uso con habilidades emergentes

Los modelos a gran escala dotan a los modelos de algunas capacidades sin precedentes, llamadas capacidades emergentes. La aparición es a menudo impredecible y los resultados son sorprendentes. Resolver operaciones literales exhibe capacidades emergentes típicas, como la ortografía inversa de una palabra dado el modelo, generando la palabra original.

Casos sin uso y comprensión

En algunas tareas, a medida que aumenta el tamaño del LLM, el rendimiento comienza a disminuir, como Redefine-math, Into the-unknown, Memo-trap, etc. Además, LLM también tiene un fenómeno en forma de U, es decir, el rendimiento del modelo aumenta primero y luego disminuye a medida que aumenta el modelo. En cierto sentido, el fenómeno en forma de U indica que el modelo a pequeña escala y el modelo a gran escala predicen con diferentes mecanismos internos Desde esta perspectiva, el fenómeno en forma de U puede deberse a la transformación inversa causada por la capacidad emergente de el modelo. La razón de la habilidad emergente tiene las siguientes hipótesis:

Una tarea puede tener varios pasos críticos, que LLM no puede manejar hasta que sea lo suficientemente grande para manejar cada paso.
Para el fenómeno de escalado inverso, puede ser que el modelo se base demasiado en información previa en lugar de indicaciones, lo que complica un problema simple.

Tareas misceláneas

Sin caso de uso

Debido a las diferencias en los datos objetivo y de entrenamiento, los LLM tienen dificultades con ciertas tareas, como algunas tareas de regresión, que implican predecir un valor continuo en lugar de una etiqueta discreta. La principal razón de su bajo rendimiento es la diferencia intrínseca entre el objetivo de modelado del lenguaje y el objetivo de la tarea de regresión.

caso de uso

Los LLM son muy buenos para imitar a los humanos, actuar como chatbots y realizar diversas tareas. Los LLM pueden actuar como buenas herramientas de anotación, así como también como generadores de datos. LLM también se puede utilizar para la evaluación de la calidad de algunas tareas de NLG. Además, algunas capacidades de LLM como COT pueden aportar cierta interpretabilidad.

“Tareas” del mundo real

El modelo enfrenta desafíos en tres aspectos en el mundo real:

Entrada ruidosa/no estructurada: los datos de entrada del mundo real pueden contener errores tipográficos, coloquialismos, idiomas mezclados, etc.
Las tareas no están definidas formalmente en la academia: algunas tareas en el mundo real están mal definidas y es posible realizar múltiples tareas simultáneamente.
Siga las instrucciones del usuario: los modelos deben comprender la intención del usuario y proporcionar resultados que coincidan con esas intenciones.

Esencialmente, estos desafíos en el mundo real surgen del hecho de que las solicitudes de los usuarios tienen una distribución diferente a la del conjunto de datos diseñado para una tarea específica. Los conjuntos de datos públicos de NLP no reflejan cómo se utilizan los modelos.
Manejar tales tareas del mundo real requiere resolver la desambiguación, comprender el contexto y manejar entradas ruidosas. Los LLM hacen un mejor trabajo aquí que los modelos ajustados. Y después del ajuste fino de las instrucciones y el ajuste de alineación manual, estos mejoran aún más la capacidad de LLM y ayudan a LLM a comprender y seguir mejor las instrucciones del usuario.
Un problema importante en escenarios reales es cómo evaluar el rendimiento del modelo. En ausencia de tareas o indicadores formales, la efectividad del modelo solo se puede obtener a través de la retroalimentación de anotadores humanos.

OTRAS CONSIDERACIONES

Aunque LLM es adecuado para muchas tareas posteriores, también se deben considerar factores como su eficiencia y confiabilidad. Aquí hay tres cosas a tener en cuenta:

Si es sensible al costo o tiene altos requisitos de latencia, considere un modelo ligero de ajuste fino;
El aprendizaje de disparo cero no puede aprender atajos a partir de datos específicos de tareas, pero LLM todavía tiene este problema;
Los problemas de seguridad relacionados con LLM deben tomarse en serio, LLM puede generar resultados dañinos o sesgados.

Eficiencia

En la implementación real, el rendimiento, el costo y la demora son consideraciones importantes, y la relación entre eficiencia y eficacia debe equilibrarse.

Costo

El costo de entrenamiento del modelo es muy alto. El costo de entrenar GPT-3 175B una vez necesita 4,6 millones de dólares estadounidenses. Además, el costo de la electricidad y el hardware también es muy alto. Los usuarios también deben pagar una cierta tarifa para usar la API de ChatGPT. Por lo tanto, si no puede pagar un cierto costo, el ajuste fino del modelo a pequeña escala es una mejor opción.

Latencia

En la aplicación práctica de LLM, la demora es un factor clave a considerar. El tiempo de inferencia es una métrica común para medir la latencia y depende en gran medida del tamaño del modelo, la arquitectura y la longitud del token. En escenarios donde no se puede tolerar una latencia alta, los LLM grandes pueden no ser adecuados.

Ajuste eficiente de parámetros

El ajuste fino eficiente de parámetros (PET) es una técnica eficaz que puede congelar la mayoría de los parámetros de LLM y solo ajustar o agregar una pequeña parte de los parámetros del modelo, lo que puede mantener el rendimiento del modelo y reducir en gran medida los costos de computación y almacenamiento.

Integridad

Como los LLM pertenecen a campos como la atención médica, las finanzas, el derecho, etc., es necesario asegurarse de que produzcan resultados confiables.

Robustez y Calibración

Existe una fuerte correlación entre la precisión y la solidez de los LLM. Si el modelo se ajusta con precisión, puede dar lugar a una mala calibración grave, y el modelo también es propenso a sobreajustarse en escenarios de tiro cero. Por lo tanto, ajustar un modelo no es la mejor opción cuando la robustez y la precisión son factores clave. Se descubrió que la alineación artificial es una solución potencial para mejorar la solidez del modelo.

Equidad y sesgo

Se ha demostrado que los LLM exhiben un trato e impacto diferenciales, perpetúan el sesgo social y conducen a la discriminación. La alineación de modelos con instrucciones humanas puede mejorar el rendimiento de los LLM.

Sesgos espurios

El problema del aprendizaje abreviado existe en varias tareas de comprensión del lenguaje natural bajo los paradigmas de preentrenamiento y ajuste fino, y los modelos dependen en gran medida de correlaciones espurias entre entradas y etiquetas en los datos de ajuste fino para la predicción. Los LLM exhibirán algunos atajos en el proceso de aprendizaje del contexto, y los LLM favorecen las respuestas que prevalecen en el corpus previo a la capacitación. Estudios recientes han demostrado que este sesgo posicional se puede mitigar eligiendo un mensaje apropiado.

Desafíos de seguridad

alucinaciones

Los LLM pueden alucinar o producir contenido absurdamente falso, lo que afecta negativamente de manera significativa la calidad y confiabilidad de la información en varias aplicaciones. Esto brindará información falsa a los usuarios que confían en ella. Si se trata de escenarios médicos, financieros y de otro tipo, tendrá graves consecuencias. Por lo tanto, RLHF se usa ampliamente.

contenido dañino

Debido a la continuidad y legibilidad del texto generado por los LLM, el contenido dañino de los LLM puede causar daños importantes, como incitación al odio, discriminación, incitación a la violencia, etc.

Privacidad

Los LLM pueden filtrar la privacidad de los usuarios.

CONCLUSIÓN Y RETOS FUTUROS

El uso efectivo de LLM requiere una comprensión de sus capacidades, así como las limitaciones de las tareas en diferentes escenarios de aplicación. Este documento proporciona una guía práctica para que los LLM manejen tareas posteriores. Primero analiza la arquitectura de los LLM, luego explora la aplicabilidad de los LLM a diferentes tareas y, finalmente, analiza su eficiencia y confiabilidad. Las perspectivas para los LLM son las siguientes:

Evalúe el modelo en conjuntos de datos reales.
Alineación del modelo. Asegurar que modelos cada vez más poderosos estén alineados con los valores e intereses humanos.
Alineación segura. La seguridad del modelo es una parte integral del proceso de construcción del modelo.
Predicción de rendimiento en Scale-Up. Se puede simular el efecto del tamaño en el rendimiento del modelo.

leer resumen

Una introducción muy completa a LLM. Elabora los escenarios aplicables y el desarrollo futuro de LLM desde las perspectivas de datos, tareas, rendimiento y eficiencia. Es especialmente adecuado para amigos que desean comprender el campo de los modelos grandes. Por supuesto, el desarrollo de modelos grandes tiene menos de un año, y las aplicaciones de modelos grandes están surgiendo como hongos, y los métodos de entrenamiento para modelos grandes también están surgiendo uno tras otro. Si esta guía se puede actualizar continuamente, yo cree que podrá ayudar aún más a los profesionales relevantes en el futuro.

[Lectura intensiva de artículos] Aprovechar el poder de los LLM en la práctica: una encuesta sobre ChatGPT y más allá

Aprovechar el poder de los LLM en la práctica: una encuesta sobre ChatGPT y más allá

prefacio

Abstracto

INTRODUCCIÓN

GUÍA PRÁCTICA PARA MODELOS

Modelos de lenguaje de estilo BERT: codificador-descodificador o solo codificador

Modelos de lenguaje de estilo GPT: solo decodificador

GUÍA PRÁCTICA DE DATOS

Datos de preentrenamiento

Ajuste de datos

Datos de prueba/datos de usuario

GUÍA PRÁCTICA DE TAREAS DE PNL

Tareas tradicionales de NLU

Sin caso de uso

caso de uso

Tareas de generación

caso de uso

Sin caso de uso

Tareas intensivas en conocimiento

caso de uso

Sin caso de uso

Habilidades relacionadas con la escala

Caso de uso con razonamiento

Casos de uso con habilidades emergentes

Casos sin uso y comprensión

Tareas misceláneas

Sin caso de uso

caso de uso

“Tareas” del mundo real

OTRAS CONSIDERACIONES

Eficiencia

Costo

Latencia

Ajuste eficiente de parámetros

Integridad

Robustez y Calibración

Equidad y sesgo

Sesgos espurios

Desafíos de seguridad

alucinaciones

contenido dañino

Privacidad

CONCLUSIÓN Y RETOS FUTUROS

leer resumen

Supongo que te gusta