Fuente: cuenta pública de AINLPer WeChat (¡compartir productos secos todos los días!)
Editor: ShuYini
Revisión: ShuYini
Hora: 2022-09-30
introducción
Un pequeño cambio en el aviso (Prompt) provocará un gran cambio en el rendimiento del modelo de lenguaje grande (LLM), que dedicará mucho tiempo al diseño del aviso (prompt). Con este fin, este documento propone el método ASK ME ANYTHING (AMA), que primero genera múltiples indicaciones efectivas e imperfectas, luego las agrega y finalmente genera indicaciones de alta calidad.
Siga la cuenta pública de AINLPer , los últimos productos secos se entregarán lo antes posible
introducción de fondo
Los modelos de lenguaje grande (LLM) nos acercan al objetivo del aprendizaje automático independiente de tareas. En lugar de entrenar un modelo para una nueva tarea, LLM se aplica a la nueva tarea lista para usar . En el paradigma de aprendizaje contextual, los LLM están controlados por indicaciones o especificaciones de tareas de lenguaje natural. donde las indicaciones se definen mediante plantillas que contienen marcadores de posición para describir y representar entradas y salidas de tareas.
Un trabajo reciente evalúa el desempeño de los LLM en las indicaciones en una variedad de tareas, y los experimentos encuentran que pequeños cambios en las indicaciones conducen a grandes cambios en el rendimiento. Y el rendimiento inmediato también depende de la serie LLM seleccionada y el tamaño del modelo. Con el fin de mejorar la confiabilidad, se dedica mucho trabajo a la elaboración de un aviso perfecto (prompt). Por ejemplo, algunos expertos recomiendan estrategias para que los usuarios exploren manualmente grandes espacios de búsqueda a fin de optimizar las solicitudes tarea por tarea.
En su lugar, este documento considera agregar las predicciones de varias indicaciones válidas pero imperfectas para mejorar el rendimiento de las indicaciones en una variedad de modelos y tareas . Dada una entrada de tarea, cada solicitud vota en la etiqueta de verdad básica de la entrada, y estos votos se agregan para producir la predicción final.
problemas encontrados
En la búsqueda de indicadores agregados de alta calidad, enfrentamos los siguientes desafíos:
Mensajes de alta calidad (mensajes efectivos) : los mensajes de alta calidad son la primera condición para mejorar el efecto de agregación. En dos tareas de SuperGLUE (CB, RTE), empleamos señales en bruto que producen un rendimiento casi aleatorio. La generación de varias sugerencias en el mismo formato y la predicción de votos mayoritarios entre sugerencias tiene un impacto menor (+4 % para CB) e incluso puede perjudicar el rendimiento promedio de las sugerencias (-2 % para RTE). Muchas propuestas para mejorar las indicaciones se centran en un solo tipo de tarea y se evalúan en función de una sola familia de modelos y/o tamaño. Para esto, necesitamos una estructura de sugerencias que funcione en todas las tareas y modelos .
Recopilación escalable : después de identificar formatos de sugerencias efectivos, necesitamos obtener múltiples sugerencias de estos formatos; estas sugerencias son principalmente para recopilar votos para las etiquetas de verdad de campo de la entrada. El formato original de la tarea varía ampliamente, y el trabajo anterior reescribe manualmente los ejemplos de entrada en el nuevo formato de una manera específica para la tarea, lo que es difícil de escalar. Necesitamos una estrategia escalable para reformatear las entradas de tareas .
Agregación de avisos : con los avisos anteriores (tanto para CB como para RTE), observamos un cambio promedio en la precisión del 9,5 % y un error de índice de Jaccard un 69 % más alto que el error de aviso de reconocimiento. En trabajos previos, la votación mayoritaria (MV) es la principal estrategia de agregación no supervisada, pero no considera estas dos propiedades y, por lo tanto, no es confiable. Necesitamos una estrategia para tener en cuenta las distintas precisiones y dependencias .
Introducción al método del modelo AMA
problema resuelto
1. Identificar las propiedades de las sugerencias que mejoran la eficiencia entre tareas, tipos de modelos y tamaños de modelos. Examinamos los formatos de avisos estándar para la clasificación en trabajos anteriores y descubrimos que los avisos que admiten respuestas abiertas ("¿Adónde ha ido Juan?") son más efectivos que los avisos que restringen la salida del modelo a tokens específicos . Por ejemplo, convertir las tres tareas de SuperGLUE (CB, RTE, WSC) del formato restrictivo original en [Brown et al., 2020] al formato abierto mejora el rendimiento en un 72 %. Dada la entrada de una tarea, descubrimos que la estructura simple de formar preguntas a partir de la entrada y solicitar al LLM que responda la pregunta se puede aplicar a casos bastante generales y mejorar el rendimiento en diferentes tareas de referencia.
2. Proponemos una estrategia para el reformateo escalable de entradas de tareas en el formato eficiente que se encuentra en (1) . La entrada de la tarea se transforma en un formato eficiente de respuesta a preguntas abiertas mediante el uso del propio LLM de forma recursiva en una canalización fija de dos pasos. Primero usamos el indicador de pregunta (), que contiene ejemplos independientes de la tarea de cómo traducir declaraciones en varias preguntas (por ejemplo, sí-no, cloze), y luego usamos el indicador de respuesta () para demostrar formas de responder preguntas (por ejemplo, respuesta corta o larga). Aplicar cadena de sugerencias: respuesta (pregunta (x)) ---- entrada dada x 2 x ^ 2X2 para el pronóstico final. La cadena se puede reutilizar entre entradas y combinar diferentes pares de señales funcionales para generar diversidad. Aplicamos diferentes cadenas de sugerencias de características a la entrada, recopilando múltiples votos para la etiqueta de verdad básica de la entrada.
3. Utilice la supervisión débil (WS) para agregar predicciones de manera confiable . Se encontró experimentalmente que los errores producidos por las predicciones de diferentes cadenas pueden ser altamente variables y correlacionados. Si bien la votación por mayoría (MV) puede funcionar bien en algunos conjuntos de sugerencias, no funciona bien en los casos anteriores. AMA da cuenta de estas situaciones mediante la identificación de dependencias entre señales y el uso de WS, un proceso de modelado y combinación de predicciones ruidosas sin datos etiquetados . Aquí, por primera vez, este documento aplica WS ampliamente a las sugerencias, lo que demuestra que mejora el uso de LLM estándar y no requiere capacitación adicional.
método del modelo AMA
Resumiendo los métodos de resolución de problemas anteriores, este documento propone PREGÚNTAME LO QUE SEA (AMA), un método simple que no solo reduce los parámetros del LLM de código abierto en un factor de 30, sino que también supera el rendimiento de GPT3 con pocos disparos. -175B.
Entre ellos, como se muestra en la figura anterior: AMA primero usa LLM de forma recursiva para reformatear tareas y señales en un formato eficiente, y luego usa una supervisión débil para agregar predicciones a través de señales. El reformateo se realiza mediante una cadena de sugerencias que consisten en sugerencias funcionales (fijas, reutilizables) que operan en diferentes entradas de tareas. Aquí, dado un ejemplo de entrada, la cadena de solicitud consiste en una solicitud de pregunta (), a través de la cual el LLM convierte la declaración de entrada en una pregunta, y una solicitud de respuesta (), a través de la cual el LLM responde la pregunta que genera. Diferentes cadenas de sugerencias (es decir, diferentes demostraciones contextuales de preguntas y respuestas) conducen a diferentes predicciones de la etiqueta verdadera de la entrada.
Resultados experimentales
1. En la Tabla 1 a continuación, compare los resultados de las pruebas comparativas de código abierto GPT-J-6B y Few-Shot (k∈[32…70]) GPT3-175B. Se puede encontrar que entre 20 puntos de referencia, 15 modelos de parámetros 6B de código abierto superan el rendimiento promedio de pocos disparos del modelo GPT3-175B. AMA supera el rendimiento de pocos disparos (k = 3) del modelo de parámetros 6B en un promedio del 41 % en 20 tareas.
2. Análisis y evaluación comparativa entre tamaños de modelos. Informamos la mejora absoluta de AMA en el rendimiento de pocos disparos (k = 3), promediado en 7 tareas con un intervalo de confianza del 95% (izquierda). Ordenar por impulso promedio de AMA en 7 tareas (derecha).
3. El rendimiento de los resultados experimentales de Sanh et al. T0 en comparación con la votación mayoritaria (MV) y la supervisión débil (WS) en 10 formatos de solicitud diferentes en fuente de solicitud. Cuando se utiliza la fuente rápida, la mejora promedio de MV y WS es de 3,6 puntos y 6,1 puntos, respectivamente.