Más reciente | Ask Me Anything Una estrategia simple para incitar (Prompt) modelos de lenguaje (Universidad de Stanford y con código fuente)

Fuente: cuenta pública de AINLPer WeChat (¡compartir productos secos todos los días!)
Editor: ShuYini
Revisión: ShuYini
Hora: 2022-09-30

introducción

Un pequeño cambio en el aviso (Prompt) provocará un gran cambio en el rendimiento del modelo de lenguaje grande (LLM), que dedicará mucho tiempo al diseño del aviso (prompt). Con este fin, este documento propone el método ASK ME ANYTHING (AMA), que primero genera múltiples indicaciones efectivas e imperfectas, luego las agrega y finalmente genera indicaciones de alta calidad.
inserte la descripción de la imagen aquí

Siga la cuenta pública de AINLPer , los últimos productos secos se entregarán lo antes posible

introducción de fondo

 Los modelos de lenguaje grande (LLM) nos acercan al objetivo del aprendizaje automático independiente de tareas. En lugar de entrenar un modelo para una nueva tarea, LLM se aplica a la nueva tarea lista para usar . En el paradigma de aprendizaje contextual, los LLM están controlados por indicaciones o especificaciones de tareas de lenguaje natural. donde las indicaciones se definen mediante plantillas que contienen marcadores de posición para describir y representar entradas y salidas de tareas.

 Un trabajo reciente evalúa el desempeño de los LLM en las indicaciones en una variedad de tareas, y los experimentos encuentran que pequeños cambios en las indicaciones conducen a grandes cambios en el rendimiento. Y el rendimiento inmediato también depende de la serie LLM seleccionada y el tamaño del modelo. Con el fin de mejorar la confiabilidad, se dedica mucho trabajo a la elaboración de un aviso perfecto (prompt). Por ejemplo, algunos expertos recomiendan estrategias para que los usuarios exploren manualmente grandes espacios de búsqueda a fin de optimizar las solicitudes tarea por tarea.

 En su lugar, este documento considera agregar las predicciones de varias indicaciones válidas pero imperfectas para mejorar el rendimiento de las indicaciones en una variedad de modelos y tareas . Dada una entrada de tarea, cada solicitud vota en la etiqueta de verdad básica de la entrada, y estos votos se agregan para producir la predicción final.

problemas encontrados

 En la búsqueda de indicadores agregados de alta calidad, enfrentamos los siguientes desafíos:

Mensajes de alta calidad (mensajes efectivos) : los mensajes de alta calidad son la primera condición para mejorar el efecto de agregación. En dos tareas de SuperGLUE (CB, RTE), empleamos señales en bruto que producen un rendimiento casi aleatorio. La generación de varias sugerencias en el mismo formato y la predicción de votos mayoritarios entre sugerencias tiene un impacto menor (+4 % para CB) e incluso puede perjudicar el rendimiento promedio de las sugerencias (-2 % para RTE). Muchas propuestas para mejorar las indicaciones se centran en un solo tipo de tarea y se evalúan en función de una sola familia de modelos y/o tamaño. Para esto, necesitamos una estructura de sugerencias que funcione en todas las tareas y modelos .

Recopilación escalable : después de identificar formatos de sugerencias efectivos, necesitamos obtener múltiples sugerencias de estos formatos; estas sugerencias son principalmente para recopilar votos para las etiquetas de verdad de campo de la entrada. El formato original de la tarea varía ampliamente, y el trabajo anterior reescribe manualmente los ejemplos de entrada en el nuevo formato de una manera específica para la tarea, lo que es difícil de escalar. Necesitamos una estrategia escalable para reformatear las entradas de tareas .

Agregación de avisos : con los avisos anteriores (tanto para CB como para RTE), observamos un cambio promedio en la precisión del 9,5 % y un error de índice de Jaccard un 69 % más alto que el error de aviso de reconocimiento. En trabajos previos, la votación mayoritaria (MV) es la principal estrategia de agregación no supervisada, pero no considera estas dos propiedades y, por lo tanto, no es confiable. Necesitamos una estrategia para tener en cuenta las distintas precisiones y dependencias .

Introducción al método del modelo AMA

problema resuelto

 1. Identificar las propiedades de las sugerencias que mejoran la eficiencia entre tareas, tipos de modelos y tamaños de modelos. Examinamos los formatos de avisos estándar para la clasificación en trabajos anteriores y descubrimos que los avisos que admiten respuestas abiertas ("¿Adónde ha ido Juan?") son más efectivos que los avisos que restringen la salida del modelo a tokens específicos . Por ejemplo, convertir las tres tareas de SuperGLUE (CB, RTE, WSC) del formato restrictivo original en [Brown et al., 2020] al formato abierto mejora el rendimiento en un 72 %. Dada la entrada de una tarea, descubrimos que la estructura simple de formar preguntas a partir de la entrada y solicitar al LLM que responda la pregunta se puede aplicar a casos bastante generales y mejorar el rendimiento en diferentes tareas de referencia.

 2. Proponemos una estrategia para el reformateo escalable de entradas de tareas en el formato eficiente que se encuentra en (1) . La entrada de la tarea se transforma en un formato eficiente de respuesta a preguntas abiertas mediante el uso del propio LLM de forma recursiva en una canalización fija de dos pasos. Primero usamos el indicador de pregunta (), que contiene ejemplos independientes de la tarea de cómo traducir declaraciones en varias preguntas (por ejemplo, sí-no, cloze), y luego usamos el indicador de respuesta () para demostrar formas de responder preguntas (por ejemplo, respuesta corta o larga). Aplicar cadena de sugerencias: respuesta (pregunta (x)) ---- entrada dada x 2 x ^ 2X2 para el pronóstico final. La cadena se puede reutilizar entre entradas y combinar diferentes pares de señales funcionales para generar diversidad. Aplicamos diferentes cadenas de sugerencias de características a la entrada, recopilando múltiples votos para la etiqueta de verdad básica de la entrada.

 3. Utilice la supervisión débil (WS) para agregar predicciones de manera confiable . Se encontró experimentalmente que los errores producidos por las predicciones de diferentes cadenas pueden ser altamente variables y correlacionados. Si bien la votación por mayoría (MV) puede funcionar bien en algunos conjuntos de sugerencias, no funciona bien en los casos anteriores. AMA da cuenta de estas situaciones mediante la identificación de dependencias entre señales y el uso de WS, un proceso de modelado y combinación de predicciones ruidosas sin datos etiquetados . Aquí, por primera vez, este documento aplica WS ampliamente a las sugerencias, lo que demuestra que mejora el uso de LLM estándar y no requiere capacitación adicional.

método del modelo AMA

 Resumiendo los métodos de resolución de problemas anteriores, este documento propone PREGÚNTAME LO QUE SEA (AMA), un método simple que no solo reduce los parámetros del LLM de código abierto en un factor de 30, sino que también supera el rendimiento de GPT3 con pocos disparos. -175B.

 Entre ellos, como se muestra en la figura anterior: AMA primero usa LLM de forma recursiva para reformatear tareas y señales en un formato eficiente, y luego usa una supervisión débil para agregar predicciones a través de señales. El reformateo se realiza mediante una cadena de sugerencias que consisten en sugerencias funcionales (fijas, reutilizables) que operan en diferentes entradas de tareas. Aquí, dado un ejemplo de entrada, la cadena de solicitud consiste en una solicitud de pregunta (), a través de la cual el LLM convierte la declaración de entrada en una pregunta, y una solicitud de respuesta (), a través de la cual el LLM responde la pregunta que genera. Diferentes cadenas de sugerencias (es decir, diferentes demostraciones contextuales de preguntas y respuestas) conducen a diferentes predicciones de la etiqueta verdadera de la entrada.

Resultados experimentales

1. En la Tabla 1 a continuación, compare los resultados de las pruebas comparativas de código abierto GPT-J-6B y Few-Shot (k∈[32…70]) GPT3-175B. Se puede encontrar que entre 20 puntos de referencia, 15 modelos de parámetros 6B de código abierto superan el rendimiento promedio de pocos disparos del modelo GPT3-175B. AMA supera el rendimiento de pocos disparos (k = 3) del modelo de parámetros 6B en un promedio del 41 % en 20 tareas.

2. Análisis y evaluación comparativa entre tamaños de modelos. Informamos la mejora absoluta de AMA en el rendimiento de pocos disparos (k = 3), promediado en 7 tareas con un intervalo de confianza del 95% (izquierda). Ordenar por impulso promedio de AMA en 7 tareas (derecha).

3. El rendimiento de los resultados experimentales de Sanh et al. T0 en comparación con la votación mayoritaria (MV) y la supervisión débil (WS) en 10 formatos de solicitud diferentes en fuente de solicitud. Cuando se utiliza la fuente rápida, la mejora promedio de MV y WS es de 3,6 puntos y 6,1 puntos, respectivamente.

Lectura recomendada

[1] Un artículo para comprender la Conferencia internacional EMNLP && Descargas de documentos EMNLP a lo largo de los años && incluyendo EMNLP2022

[2] [Descarga del artículo de NeurIPS a lo largo de los años] Este artículo lo llevará a comprender la Conferencia Internacional de NeurIPS (incluido NeurIPS2022)

[3] [Microsoft Research && incluido el código fuente] En comparación con el modelo de caja negra, el modelo interpretable también puede lograr un rendimiento ideal

[4] [IJCAI2022&&Knowledge Graph] Extrapolación de conocimiento de mapas basada en metaaprendizaje en un entorno federado (Universidad de Ali y Zhejiang y código fuente incluido)

[5] [Paper Sharing && Language Representation] Se espera que subvierta la red neuronal recurrente gráfica (GNN) de Transformer

[6] [NeurIPS && Graph Q&A] Knowledge Graph (KG) Cone Embedding Method for Mutil-Hop Reasoning (Academia de Ciencias de China, incluido el código fuente)

[7] [Papel compartido de NLP y preguntas y respuestas de control de calidad] Asociación dinámica GNN establece una asociación directa, optimiza el razonamiento multisalto (incluido el código fuente)

[8] [Descargar artículos de IJCAI a lo largo de los años && paper express] Sin datos contra destilación, junta vertical, red neuronal de gráfico de paradigma de ajuste fino previo al entrenamiento (GNN)

[9] [Papel compartido de NLP y reconocimiento de entidad nombrada en chino] Cómo crear un diccionario geográfico excelente/Diccionario geográfico (Universidad de Zhejiang y código fuente incluido)

Supongo que te gusta

Origin blog.csdn.net/yinizhilianlove/article/details/127215208
Recomendado
Clasificación