Descripción general del desarrollo de tecnología de modelos grandes - (4)

Documento de referencia de contenido de texto "Una encuesta de modelos de lenguaje grande"

inserte la descripción de la imagen aquí
inserte la descripción de la imagen aquí

Título del artículo: A Survey of Large Language Models
Enlace del artículo: https://arxiv.org/pdf/2303.18223v10.pdf

6. Cómo usar

Después del entrenamiento previo o el ajuste fino adaptativo, la forma principal de usar LLM es diseñar estrategias de sugerencias adecuadas para resolver varias tareas. Un enfoque típico de indicaciones es el aprendizaje en contexto, que representa descripciones de tareas y/o demostraciones en forma de texto en lenguaje natural. Además, el aprendizaje contextual se puede aumentar mediante indicaciones de cadena de pensamientos, que implican una serie de indicaciones para pasos intermedios de razonamiento. A continuación, se introducirán en detalle los detalles de estas dos técnicas.

6.1 Aprendizaje contextual

Como una forma especial de orientación, el aprendizaje en contexto (ICL) se propuso por primera vez con GPT-3 y se ha convertido en un método típico para utilizar LLM.

6.1.1 Formulario de solicitud

El aprendizaje contextual utiliza un mensaje de lenguaje natural formateado que consiste en una descripción de la tarea y/o varios ejemplos de tareas como demostraciones. La siguiente figura muestra un ejemplo de aprendizaje contextual. Primero, se seleccionan algunos ejemplos del conjunto de datos de la tarea como demostraciones. Luego se combinan en un orden específico para formar mensajes de lenguaje natural con plantillas especialmente diseñadas. Finalmente, la instancia de prueba se agrega a la demostración como entrada al LLM, que genera la salida. Basado en la demostración de tareas, LLM puede identificar y ejecutar nuevas tareas sin actualizaciones de gradiente explícitas.

inserte la descripción de la imagen aquí

Formalmente, sea D k = f ( x 1 , y 1 ) , . . . , f ( xk , yk ) Dk = {f(x_1, y_1), . . . , f(x_k, y_k)}re k=f ( x1,y1) ,... ,f ( xk,yk) representa un conjunto de demostración que contiene k ejemplos, dondef ( xk , yk ) f(x_k, y_k)f ( xk,yk) es la función que convierte el k-ésimo ejemplo de tarea en un indicador de lenguaje natural. Descripción dada de la tareaIII. DemostraciónD k D_kDky nueva entrada de consulta xk+1 x_k+1Xk+1 , la salida generada por LLMy ^ k + 1 \hat y_{k+1}y^k + 1La predicción se puede expresar como:

inserte la descripción de la imagen aquí

donde la respuesta real yk + 1 y_{k+1}yk + 1Vacío, se requiere predicción LLM. Dado que el rendimiento de la ICL depende en gran medida de la demostración, el diseño adecuado de los ejemplos en las sugerencias es un tema importante. Siguiendo el proceso de construcción de la ecuación anterior, nos enfocamos en tres aspectos principales del formato de ejemplos en indicaciones, que incluyen cómo seleccionar los ejemplos que componen una demostración, cómo formatear cada ejemplo como un ejemplo en una indicación (usando la función f()) y cómo organizar las demostraciones de manera razonable.

6.1.2 Diseño de demostración

Varios estudios han demostrado que el diseño de la demostración tiene una gran influencia en la eficacia de la ICL [247-249].
Con base en la discusión anterior en la Sección 6.1.1, presentaremos el diseño de demostración de ICL a partir de tres aspectos principales de selección, formato y secuencia de demostración.

Selección de demostración

El rendimiento de ICL varía mucho según los diferentes ejemplos de demostración [250], por lo que es importante seleccionar un subconjunto de demostraciones que puedan utilizar eficazmente las capacidades de ICL de LLM. Hay dos enfoques principales para la selección de modelos, a saber, métodos heurísticos y basados ​​en LLM:

  • Heurísticas: Los trabajos existentes emplean ampliamente heurísticas para seleccionar demostraciones debido a su simplicidad y bajo costo. Varios estudios utilizan perros perdigueros basados ​​en k-NN para seleccionar ejemplos que son semánticamente relevantes para la consulta. Sin embargo, hacen selecciones para cada ejemplo individualmente, en lugar de evaluar el conjunto de ejemplos como un todo. Para abordar este problema, se propone una estrategia de selección basada en la diversidad para seleccionar el conjunto de ejemplos más representativo para una tarea específica. Además, al seleccionar las demostraciones, se consideraron tanto la relevancia como la diversidad.
  • Enfoque basado en LLM: Otro enfoque es utilizar LLM para seleccionar demostraciones. Por ejemplo, LLM puede medir directamente la información de cada ejemplo, es decir, la mejora del rendimiento después de agregar ejemplos. Además, EPR propone un método de recuperación de dos etapas, que primero recuerda ejemplos similares usando un método no supervisado como BM25, y luego los clasifica usando un perro perdiguero denso entrenado en ejemplos positivos y negativos etiquetados por LLM. Como alternativa, la tarea de selección de demostración se puede formular como un problema de aprendizaje por refuerzo, donde el LLM actúa como una función de recompensa para proporcionar retroalimentación al modelo de política [257]. Debido al excelente rendimiento de LLM en la anotación de texto, algunos estudios recientes incluso utilizan directamente LLM como generador de demostración sin intervención humana.

En resumen, los ejemplos demostrativos seleccionados en ICL deben contener suficiente información sobre la tarea a resolver y ser relevantes para la consulta de prueba, lo cual es cierto para los dos métodos de selección descritos anteriormente.

formato de demostración

Después de seleccionar ejemplos de tareas, el siguiente paso es integrarlos y formatearlos como mensajes de lenguaje natural para LLM. Una manera fácil es usar una plantilla predefinida instanciada con los pares de entrada-salida correspondientes. Para construir plantillas más informativas, estudios recientes consideran agregar descripciones de tareas o usar señales de cadena de pensamiento para mejorar la capacidad de razonamiento de los LLM. Por ejemplo, en , los autores recopilaron un conjunto de datos a gran escala de descripciones de tareas escritas por humanos. Después de sintonizar con este conjunto de datos, se puede mejorar el rendimiento en tareas conocidas, y LLM también se puede generalizar a tareas desconocidas hasta cierto punto. Para reducir los costos de anotación, se propone un enfoque semiautomático para guiar a LLM a generar descripciones de tareas para tareas nuevas mediante el uso de un conjunto inicial de descripciones de tareas escritas por humanos. Debido al alto costo de anotar manualmente formatos de demostración para diferentes tareas, algunos estudios también han investigado cómo generar automáticamente formatos de demostración de alta calidad. Como dos métodos típicos, Auto-CoT utiliza LLM con sugerencias de tiro cero "Pensemos paso a paso" para generar pasos de razonamiento intermedios, mientras que "Pocas a muchas sugerencias" primero consulta LLM para realizar la descomposición del problema, y ​​luego usa LLM para resolver gradualmente subproblemas basados ​​en respuestas intermedias de la resolución de problemas anteriores.

Orden de demostración

Los LLM a veces sufren de sesgo de actualidad, es decir, la tendencia a repetir las respuestas que aparecen al final de la demostración. Por lo tanto, es muy importante organizar las demostraciones (es decir, ejemplos de tareas) correctamente. Investigaciones anteriores propusieron varias heurísticas para encontrar rápidamente un buen orden. Por ejemplo, las demostraciones se pueden organizar directamente según su similitud con la consulta en el espacio de incrustación: cuanto mayor sea la similitud, más cerca del final. Además, las métricas de entropía global y local se pueden utilizar para puntuar diferentes órdenes de demostración. Para integrar más información de tareas, algunos estudios recientes proponen métodos para minimizar la longitud de código necesaria para comprimir y transmitir etiquetas de tareas, inspirados en la teoría de la información. Sin embargo, estos métodos requieren datos etiquetados adicionales como un conjunto de validación para evaluar el rendimiento de una secuencia de demostración en particular. Para eliminar este requisito, se proponen métodos para muestrear datos de validación del propio LLM.

6.1.3 Mecanismos potenciales

Después del entrenamiento previo, LLM puede exhibir interesantes capacidades de ICL sin actualizar. A continuación, analizamos dos cuestiones clave de la capacidad de ICL de LLM, a saber, "cómo el entrenamiento previo afecta la capacidad de ICL" y "cómo LLM realiza ICL durante la inferencia".

¿Cómo afecta el pre-entrenamiento a la ICL?

ICL se propuso por primera vez en GPT-3 y se ha demostrado que la capacidad de ICL se vuelve más significativa con un tamaño de modelo más grande. Sin embargo, varios estudios han revelado que los PLM a pequeña escala también pueden exhibir sólidas capacidades de ICL en tareas de capacitación especialmente diseñadas (por ejemplo, mediante el uso de ejemplos de tareas para la predicción de etiquetas y consultas como entrada), e incluso pueden superar a los modelos más grandes. Esto sugiere que el diseño de la tarea de entrenamiento es un factor importante que afecta la capacidad de ICL del LLM. Además de las tareas de entrenamiento, estudios recientes también investigan la relación entre ICL y corpus de preentrenamiento. La investigación muestra que el rendimiento de ICL depende en gran medida de la fuente del corpus previo al entrenamiento, no solo del tamaño. Otro estudio proporciona un análisis en profundidad del impacto de la distribución de datos de entrenamiento. Descubrieron que ICL ocurre solo cuando los datos de entrenamiento se pueden agrupar en muchas clases raras, en lugar de distribuirse uniformemente.

¿Cómo realiza LLM ICL?

Durante la fase de inferencia, los investigadores se centraron en analizar la forma en que el LLM realiza las capacidades de ICL dada una demostración, ya que este proceso no implica un aprendizaje o una actualización explícitos. Por lo general, analizan desde la perspectiva del descenso del gradiente y tratan la ICL como un ajuste fino implícito. De acuerdo con este marco, el proceso ICL se puede explicar de la siguiente manera: a través del cálculo directo, LLM genera metagradientes relacionados con la demostración de acuerdo con la demostración e implícitamente realiza un descenso de gradiente a través del mecanismo de atención. Los experimentos también muestran que algunos cabezales de atención en LLM pueden realizar operaciones atómicas independientes de la tarea (por ejemplo, copiar y comparar prefijos), que están estrechamente relacionadas con las capacidades de ICL. Para explorar más a fondo el mecanismo de trabajo de ICL, algunos estudios resumen ICL como un proceso de aprendizaje algorítmico. Específicamente, LLM esencialmente codifica el modelo implícito a través de sus parámetros durante el entrenamiento previo. Con ejemplos proporcionados por ICL, los LLM pueden implementar algoritmos de aprendizaje como el descenso de gradiente o calcular directamente soluciones de forma cerrada para actualizar estos modelos. De acuerdo con este marco explicativo, se ha demostrado que LLM puede aprender funciones lineales simples de manera efectiva, e incluso algunas funciones complejas, como los árboles de decisión, se pueden aprender usando ICL.

6.2 Consejos de CdT

Chain-of-Thought (CoT) es una estrategia de sugerencias modificada para mejorar el desempeño de LLM en tareas de razonamiento complejo como el razonamiento aritmético, el razonamiento de sentido común y el razonamiento simbólico. A diferencia de ICL, que simplemente usa pares de entrada-salida para construir sugerencias, CoT incorpora pasos de razonamiento intermedios que pueden conducir al resultado final en sugerencias. A continuación, discutimos en detalle cómo se usa CoT en ICL y cuándo y por qué las señales de CoT son efectivas.

6.2.1 Aprendizaje contextual bajo CoT

En general, CoT se puede usar con ICL en dos configuraciones principales, la configuración de pocos disparos y cero disparos, como se describe a continuación.

CoT de pocas muestras

CoT de pocos disparos es un caso especial de ICL, que agrega un paso de inferencia de CoT al aumentar cada demostración 〈entrada, salida〉 a 〈entrada, CoT, salida〉. Para aplicar esta estrategia, a continuación discutimos dos temas clave, a saber, cómo diseñar sugerencias CoT apropiadas y cómo explotar el CoT generado para derivar la respuesta final.

  • Diseño de señales de CoT: diseñar señales de CoT apropiadas es crucial para obtener de manera efectiva habilidades de razonamiento complejo en LLM. Los métodos directos muestran que el uso de diversos CoT (es decir, múltiples rutas de inferencia por pregunta) puede mejorar el rendimiento de manera efectiva. Otra idea intuitiva es que las señales con rutas de razonamiento más complejas tienen más probabilidades de provocar la capacidad de razonamiento del LLM, lo que da como resultado una mayor precisión en la generación de respuestas correctas. Sin embargo, ambos métodos se basan en conjuntos de datos CoT anotados, lo que limita su uso en la práctica. Para superar esta limitación, Auto-CoT propone utilizar Zero-shot-CoT (detallado en la sección "Zero-shot CoT" a continuación) para generar rutas de inferencia de CoT al insinuar especialmente LLM, eliminando así los esfuerzos manuales. Para mejorar el rendimiento, Auto-CoT divide aún más las preguntas del conjunto de entrenamiento en diferentes grupos y selecciona la pregunta más cercana al centro de cada grupo, que se considera que representa bien las preguntas del conjunto de entrenamiento. Si bien el CoT de pocos disparos puede verse como un caso especial de sugerencias en ICL, ajustar el orden de las demostraciones parece tener un impacto relativamente pequeño en el rendimiento en comparación con las sugerencias estándar en ICL: ajustar las demostraciones solo conduce a un cambio de rendimiento de menos del 2% en la mayoría de las tareas.
  • Estrategia de CoT mejorada: además de enriquecer la información contextual, las sugerencias de CoT brindan la opción de inferir respuestas dadas a la pregunta. La investigación existente se enfoca principalmente en generar múltiples caminos de razonamiento y tratar de encontrar consenso entre las respuestas derivadas. Por ejemplo, la autoconsistencia se propone como una nueva estrategia de decodificación en la generación de CoT y respuestas finales. Primero genera varios caminos de inferencia y luego selecciona la respuesta más consistente integrando todas las respuestas (por ejemplo, votando por la respuesta más consistente entre estos caminos). La autoconsistencia puede incluso mejorar algunas tareas que suelen ser peores que las indicaciones estándar (p. ej., respuesta a preguntas de libro cerrado e inferencia de lenguaje natural) al mejorar en gran medida el rendimiento de la inferencia CoT. Los métodos anteriores se pueden integrar fácilmente en las sugerencias de CoT para mejorar el rendimiento sin capacitación adicional. Por el contrario, otros estudios entrenan modelos de puntuación para medir la confiabilidad de las rutas de inferencia generadas, o entrenan continuamente LLM en rutas de inferencia autogeneradas para mejorar el rendimiento.

CdT de muestra cero

A diferencia del CoT de pocos disparos, el CoT de cero disparos no incluye demostraciones de tareas anotadas por humanos en el aviso. En cambio, genera directamente pasos de inferencia y luego usa el CoT generado para derivar respuestas. Primero se propone Zero-shot CoT, donde LLM primero procede con el paso de razonamiento de generación rápida de "Pensemos paso a paso", y luego continúa con la generación rápida de la respuesta final con "Entonces, la respuesta es". Descubrieron que esta estrategia mejora significativamente el rendimiento cuando el tamaño del modelo supera cierto tamaño, pero no es eficaz en modelos a pequeña escala, lo que muestra un patrón significativo de aparición de capacidades. Para desbloquear la capacidad de CoT en más tareas, Flan-T5 y Flan-PaLM se guían aún más por la anotación de CoT y el rendimiento de disparo cero en tareas no vistas y logran mejoras.

6.2.2 CoT Discusión adicional

En esta sección, discutimos dos preguntas fundamentales relacionadas con CoT, a saber, "cuándo CoT es adecuado para LLM" y "por qué LLM puede hacer inferencias de CoT".

¿Cuándo se aplica CoT a LLM?

Dado que CoT es una capacidad emergente, solo tiene un impacto positivo en modelos suficientemente grandes (por ejemplo, aquellos que normalmente contienen 10B o más parámetros), pero no en modelos pequeños. Además, dado que CoT aumenta las señales estándar con pasos de razonamiento intermedios, es principalmente eficaz para mejorar las tareas que requieren un razonamiento paso a paso, como el razonamiento aritmético, el razonamiento de sentido común y el razonamiento simbólico. Sin embargo, puede funcionar peor que las sugerencias estándar para otras tareas que no se basan en un razonamiento complejo, como MNLI-m/mm, SST-2 y QQP de GLUE. Curiosamente, la ganancia de rendimiento de las sugerencias de CoT parece ser significativa solo cuando los resultados de las sugerencias estándar son peores.

¿Por qué LLM puede realizar el razonamiento CoT?

Como segunda pregunta, discutimos el mecanismo básico de CoT desde los siguientes dos aspectos.

  • Origen de la capacidad de CoT: con respecto al origen de la capacidad de CoT, la suposición general es que se puede atribuir al entrenamiento en código, ya que los modelos entrenados en código exhiben fuertes capacidades de razonamiento. Intuitivamente, los datos de código tienen una buena organización de lógica algorítmica y flujo de programación, lo que puede ser útil para mejorar el rendimiento de inferencia de LLM. Sin embargo, esta hipótesis aún carece de evidencia de experimentos de ablación informados públicamente (con y sin entrenamiento de código). Además, el ajuste de instrucciones no parece ser la razón clave para lograr las capacidades de CoT, ya que los estudios empíricos muestran que el ajuste de instrucciones en datos que no son de CoT no mejora el rendimiento en los puntos de referencia de CoT.
  • Impacto de los componentes de las sugerencias: la principal diferencia entre las sugerencias CoT y las sugerencias estándar es la inserción de rutas de inferencia antes de la respuesta final. Por ello, algunos investigadores han estudiado la influencia de diferentes componentes en el camino del razonamiento. Específicamente, estudios recientes identificaron tres componentes clave en las señales de CoT, a saber, símbolos (por ejemplo, cantidades numéricas en el razonamiento aritmético), patrones (por ejemplo, ecuaciones en el razonamiento aritmético) y texto (es decir, fichas restantes que no son símbolos o patrones). La investigación muestra que las dos últimas partes (es decir, el esquema y el texto) son críticas para el rendimiento del modelo y eliminar cualquiera de ellas puede provocar una degradación significativa del rendimiento. Sin embargo, la corrección de la notación y el esquema no parece importar. Además, existe una relación simbiótica entre el texto y los patrones: el texto ayuda a LLM a generar patrones útiles y los patrones ayudan a LLM a comprender tareas y generar texto que ayude a resolverlas.

En conclusión, las señales CoT proporcionan un método general y flexible para movilizar la capacidad de razonamiento de LLM. También hay algunos intentos iniciales de extender esta técnica para resolver tareas multimodales y tareas multilingües. Además de explotar directamente los LLM para ICL y CoT, algunos estudios recientes han explorado cómo especializar la capacidad de los LLM para tareas específicas, lo que se denomina especialización de modelos. Por ejemplo, los investigadores especializan la capacidad de razonamiento matemático mediante el ajuste fino de Flan-T5 a pequeña escala en la ruta de razonamiento CoT generada por LLM. La especialización de modelos también se puede aplicar para resolver diversas tareas, como la respuesta a preguntas, la síntesis de código y la recuperación de información.

7. Evaluación del desempeño

Para examinar la eficacia y la superioridad de los LLM, se ha utilizado una gran cantidad de tareas y puntos de referencia para la evaluación y el análisis empíricos. Primero, presentamos tres tareas básicas de evaluación para LLM, a saber, generación de lenguaje, utilización del conocimiento y razonamiento complejo; luego, presentamos varias tareas avanzadas para LLM con entornos u objetivos más complejos; finalmente, discutimos los puntos de referencia existentes y los análisis empíricos.

7.1 Tareas básicas de evaluación

En esta sección, nos centramos principalmente en tres tareas de evaluación para LLM, a saber, generación de lenguaje, utilización del conocimiento y razonamiento complejo. Cabe señalar que no pretendemos proporcionar una cobertura completa de todas las tareas relacionadas, sino solo centrarnos en las tareas ampliamente discutidas o estudiadas de los LLM. A continuación, describimos estas tareas en detalle.

7.1.1 Generación de lenguaje

De acuerdo con las definiciones de tareas, las tareas de generación de lenguaje existentes se pueden clasificar aproximadamente en modelado de lenguaje, generación de texto condicional y tareas de síntesis de código. Es importante tener en cuenta que la síntesis de código no es una tarea típica de procesamiento de lenguaje natural, pero la incluimos para la discusión porque muchos LLM (entrenados en datos de código) pueden resolverlo directamente a través de métodos de generación de texto de lenguaje natural.

modelado del lenguaje

Como la habilidad más básica de los LLM, el modelado del lenguaje tiene como objetivo predecir el siguiente token en función de los tokens anteriores, centrándose en la capacidad de comprensión y generación del lenguaje básico. Para evaluar esta capacidad, los conjuntos de datos de modelado de lenguaje típicos comúnmente utilizados en la investigación existente incluyen Penn Treebank, WikiText-103 y Pile, donde la perplejidad es un indicador comúnmente utilizado para evaluar el rendimiento de los modelos en entornos de muestra cero. Los estudios empíricos muestran que los LLM superan con creces los métodos anteriores de última generación en estos conjuntos de datos de evaluación. Para probar mejor la capacidad de modelar dependencias de largo alcance en el texto, se presenta el conjunto de datos LAMBADA, en el que los LLM deben predecir la última palabra de una oración en función de los párrafos contextuales. Luego, los LLM se evalúan utilizando la perplejidad y la precisión de la última palabra predicha. Como se muestra en los estudios existentes, el rendimiento en las tareas de modelado del lenguaje generalmente sigue una ley de escala, es decir, ampliar el modelo del lenguaje mejora la precisión y reduce la perplejidad.

generación de texto condicional

Como un campo importante de la generación de lenguaje, la generación de texto condicional tiene como objetivo generar texto que satisfaga las necesidades de tareas específicas basadas en condiciones dadas, que generalmente incluyen traducción automática, resumen de texto y respuesta a preguntas. Para medir la calidad del texto generado, el rendimiento suele evaluarse mediante métricas de evaluación automática (como precisión, BLEU y ROUGE) y puntuación humana. Los LLM han logrado un rendimiento notable en conjuntos de datos y puntos de referencia existentes, incluso superando el rendimiento humano (en el conjunto de datos de prueba) debido a sus poderosas capacidades de generación de lenguaje. Por ejemplo, con solo 32 ejemplos como entrada, GPT-3 con aprendizaje contextual puede superar a BERT-Large en el ajuste fino de datos completos en el puntaje promedio de SuperGLUE; en MMLU, Chinchilla con 5 ejemplos casi duplica la precisión promedio de los evaluadores humanos, y bajo la configuración de 5 ejemplos, GPT-4 logra aún más un rendimiento de vanguardia, con una mejora de precisión promedio de más del 10 % en comparación con el mejor modelo anterior. Por lo tanto, esto plantea serias preocupaciones sobre si los puntos de referencia existentes para las tareas de generación de texto condicional pueden evaluar y reflejar adecuadamente las capacidades de los LLM. Teniendo en cuenta este problema, los investigadores intentan crear nuevos puntos de referencia de evaluación (por ejemplo, BIG-bench Hard) mediante la recopilación de tareas actualmente irresolubles (es decir, tareas en las que los LLM no se desempeñan bien) o creando tareas más desafiantes (por ejemplo, generación de texto muy largo). Además, estudios recientes también han encontrado que las métricas de evaluación automática pueden subestimar la calidad de los LLM generados. En OpenDialKG, ChatGPT no funciona tan bien como GPT-2 ajustado en las métricas BLEU y ROUGE-L, pero es más popular en el juicio humano. Por lo tanto, se necesitan más esfuerzos para desarrollar nuevas métricas que sean más consistentes con el juicio humano.

síntesis de código

Además de generar texto en lenguaje natural de alta calidad, los LLM existentes también han demostrado una gran capacidad para generar lenguajes formales, especialmente programas de computadora (es decir, códigos) que satisfacen ciertas condiciones, llamadas síntesis de código. A diferencia de la generación de lenguaje natural, dado que el compilador o intérprete correspondiente puede verificar directamente el código generado, el trabajo existente evalúa principalmente la calidad del código generado por los LLM calculando la tasa de aprobación contra el caso de prueba, a saber, pass@k. Recientemente, se han propuesto varios puntos de referencia de código centrados en la corrección funcional para evaluar la capacidad de síntesis de código de los LLM, como APPS, HumanEval y MBPP. Por lo general, contienen diversas preguntas de programación que incluyen especificaciones textuales y casos de prueba para verificar la corrección. Para mejorar esta capacidad, es fundamental afinar (o entrenar previamente) los LLM en datos de código, lo que puede adaptar efectivamente los LLM a las tareas de síntesis de código. Además, los estudios existentes han propuesto algunas estrategias nuevas para la generación de código, como el muestreo de múltiples soluciones candidatas y la decodificación basada en planes, que pueden verse como imitaciones de los programadores para los procesos de corrección de errores y planificación de código. Sorprendentemente, los LLM lograron recientemente una clasificación comparable al 28% superior de los usuarios en la plataforma de competencia de programación Codeforces. Además, se lanzó GitHub Copilot para complementar los IDE de programación (como Visual Studio y JetBrains IDE), que pueden admitir múltiples lenguajes, incluidos Python, JavaScript y Java. Un artículo de perspectiva titulado "El fin de los programas" en ACM Communications analiza el impacto de la programación de IA en el campo de la informática, destacando la alta adaptabilidad de los LLM como nuevas unidades atómicas de computación.

problema principal

Si bien los LLM logran un rendimiento brillante en la generación de texto similar al humano, sufren dos problemas importantes en la generación de lenguaje, como se describe a continuación.

  • Generación controlable: para los LLM, la forma principal de generar texto con condiciones específicas es a través de instrucciones o sugerencias en lenguaje natural. A pesar de la simplicidad de este mecanismo, existen desafíos importantes al imponer restricciones estructurales o de grano fino en la salida generada. Los estudios existentes han demostrado que los LLM funcionan bien en la planificación local (por ejemplo, interacciones entre oraciones adyacentes) cuando se imponen restricciones complejas en la estructura del texto, pero pueden encontrar dificultades en la planificación global (es decir, dependencias de largo alcance). Por ejemplo, para generar textos largos complejos que contengan varios párrafos, todavía es difícil garantizar directamente una estructura de texto específica (como el orden y el flujo lógico de los conceptos) considerando el texto completo. La situación se vuelve más desafiante para las tareas de generación, como la síntesis de código, que deben seguir reglas formales o gramáticas. Para abordar este problema, una posible solución es extender la generación de disparo único a solicitudes iterativas para LLM. Esto imita el proceso de escritura humana, dividiendo la generación de lenguaje en los pasos de planificación, redacción, reescritura y edición. Varios estudios han demostrado que las sugerencias iterativas pueden generar conocimientos relevantes, lo que lleva a un mejor desempeño en las subtareas. Esencialmente, las indicaciones de pensamiento encadenado han explotado la idea de dividir tareas complejas en cadenas de razonamiento de varios pasos. Además, el control de seguridad del texto generado también es importante para la implementación práctica. Se ha demostrado que los LLM pueden generar texto que contenga información confidencial o expresiones ofensivas. Aunque el algoritmo RLHF puede aliviar este problema hasta cierto punto, todavía se basa en una gran cantidad de datos anotados por humanos para ajustar los LLM y no sigue la meta de optimización objetiva. Por lo tanto, es necesario explorar formas efectivas de superar estas limitaciones y lograr un control más seguro sobre la producción de LLM.
  • Generación especializada: aunque los LLM han aprendido patrones de lenguaje generales para generar texto coherente, sus capacidades generativas pueden verse limitadas cuando se trata de tareas o dominios especializados. Por ejemplo, un modelo de lenguaje entrenado en artículos web comunes puede enfrentar desafíos al generar informes médicos que involucran muchos términos y métodos médicos. Intuitivamente, el conocimiento del dominio es crucial para la especialización del modelo. Sin embargo, infundir esa experiencia en los LLM no es fácil.

7.1.2 Utilización del conocimiento

Los LLM poseen amplias capacidades de utilización del conocimiento y pueden aplicar el rico conocimiento obtenido de los datos de fuentes mixtas a gran escala en los que están capacitados previamente. Los métodos de evaluación para la utilización del conocimiento incluyen el uso de conjuntos de datos específicos de tareas para evaluar el desempeño de los LLM en varias tareas. Además, existen métodos generales de evaluación, como la comprensión contextual y técnicas de cuestionamiento. Los investigadores también utilizaron ejemplos contradictorios para probar la solidez y la resistencia contradictoria de los LLM.

7.1.3 Razonamiento complejo

Los LLM exhiben fuertes capacidades en razonamiento complejo. Pueden realizar tareas como razonamiento lógico, resolución de problemas matemáticos y razonamiento de sentido común. La evaluación de las capacidades de razonamiento complejo puede utilizar conjuntos de datos y tareas desafiantes, así como conjuntos de datos específicos del dominio.

7.2 Evaluación de Capacidades Avanzadas

Los LLM también exhiben algunas capacidades avanzadas que requieren métodos de evaluación especiales. Estas capacidades incluyen la alineación con humanos, la interacción con el entorno externo y la operación de herramientas. En términos de alineación con humanos, los métodos de evaluación incluyen la evaluación humana y la evaluación automática, utilizando conjuntos de datos y comentarios de expertos para mejorar el comportamiento de los LLM. La interacción con el entorno externo se puede evaluar a través del entorno virtual y experimentos del mundo real. La evaluación del funcionamiento de las herramientas se puede realizar a través de tareas de razonamiento complejas, evaluando el rendimiento de los LLM al utilizar herramientas externas para resolver problemas.

7.3 Puntos de referencia públicos y análisis empírico

Para evaluar el desempeño de los LLM, se han propuesto múltiples puntos de referencia públicos y métodos de análisis empírico. Estos incluyen puntos de referencia ampliamente utilizados como MMLU, BIG-bench y HELM. Estos puntos de referencia cubren múltiples dominios y tareas y se pueden utilizar para evaluar diversas capacidades de los LLM. Además, hay algunos puntos de referencia específicos de la capacidad, como TyDiQA y MGSM.

Además, hay muchos estudios metaanalíticos que exploran las capacidades y limitaciones de los LLM. Estos estudios cubren la evaluación de las habilidades generales y especializadas de los LLM, así como estudios de LLM sobre características humanas, equidad y precisión.

Supongo que te gusta

Origin blog.csdn.net/weixin_42010722/article/details/131682130
Recomendado
Clasificación