[Lectura en papel] AugGPT: aprovechamiento de XXX para el aumento de datos de texto (AugGPT: uso de XXX para la mejora de datos de texto)

1. Información en papel

Título de la tesis: AugGPT: aprovechamiento del transformador XXX para el aumento de datos de texto (AugGPT: uso del transformador XXX para el aumento de datos de texto)

Año de publicación: 2023-arXiv

Enlace en papel: https://arxiv.org/abs/2302.13007

Información del autor: Haixing Dai* (Universidad de Georgia, EE. UU.), Zhengliang Liu*, Wenxiong Liao*, Xiaoke Huang, Yihan Cao, Zihao Wu, Lin Zhao, Shaochen Xu, Wei Liu, Ninghao Liu, Sheng Li, Dajiang Zhu, Hongmin Cai, Lichao Sun, Quanzheng Li, Dinggang Shen, Tianming Liu y Xiang Li

Comentarios: este artículo se centra en el método de mejora de datos en el campo de la PNL, el modelo de referencia del experimento del autor y los indicadores utilizados para la evaluación del modelo. Además, el resto de este documento puede complementarse y actualizarse...

2. El contenido del artículo

Resumen

En muchas tareas de procesamiento de lenguaje natural, el aumento de datos de texto es una estrategia eficaz para superar el desafío de las muestras limitadas. Este desafío es especialmente agudo en escenarios de aprendizaje de pocos disparos, donde los datos en el dominio de destino suelen ser muchos menos y de menor calidad. Una estrategia natural y ampliamente utilizada para aliviar tales desafíos es realizar un aumento de datos para capturar mejor la invariancia de los datos y aumentar el tamaño de la muestra. Sin embargo, los métodos de aumento de datos de texto existentes no pueden garantizar la anotación correcta de los datos generados (falta de autenticidad), o no pueden garantizar suficiente diversidad de los datos generados (falta de compacidad), o ambos . Inspirado por el éxito reciente de los modelos de lenguaje a gran escala, especialmente el desarrollo de XXX, este documento propone un método de aumento de datos de texto basado en XXX (AugGPT). AugGPT reformula cada oración en las muestras de entrenamiento en múltiples muestras con conceptos similares pero semántica diferente. Luego, las muestras aumentadas se pueden usar para el entrenamiento del modelo posterior. Los resultados experimentales en la tarea de clasificación de texto de aprendizaje de pocas tomas muestran que, en comparación con los métodos de mejora de datos de texto convencionales actuales, el método AugGPT tiene un mejor rendimiento en términos de precisión de prueba y distribución de muestra mejorada .

2. Trabajo relacionado

2.1 Aumento de datos

El aumento de datos, es decir, la generación artificial de texto nuevo a través de transformaciones, se usa ampliamente en la clasificación de texto para mejorar el entrenamiento del modelo. En NLP, los métodos de aumento de datos existentes se dividen en diferentes niveles de granularidad: caracteres, palabras, oraciones y documentos.

Aumento de datos a nivel de personaje:

  • Inserción, intercambio y eliminación aleatoria de caracteres: se refiere a la inserción, el intercambio, el reemplazo o la eliminación aleatoria de caracteres en el texto para mejorar la solidez del modelo NLP frente al ruido.
  • Aumento de datos para reconocimiento óptico de caracteres (OCR): genere texto nuevo simulando errores que ocurren cuando se usan herramientas de OCR para reconocer texto de imágenes. Por ejemplo, cuando se usa OCR, "0" (número 0), "o" (O minúscula) y "O" (O mayúscula) son difíciles de distinguir, por lo que el proceso de error de reconocimiento de OCR se puede simular para generar texto nuevo. .
  • Mejora de la ortografía: Deletrear intencionalmente mal algunas palabras frecuentemente mal escritas.
  • Mejora del teclado: simule errores de tipeo aleatorios al reemplazar una tecla seleccionada con otra tecla cercana a la tecla seleccionada en un teclado con diseño QWERTY. Por ejemplo, cerca de la "s" en el teclado se encuentran "a", "w", "d", "z", "x", por lo que cualquier tecla de "a, w, d, z, x" se puede usar para reemplazar la palabra original La "s" simula errores de entrada aleatorios.

Aumento de datos a nivel de palabra:

  • Intercambiar aleatoriamente, eliminar palabras: intercambiar aleatoriamente dos palabras en el texto y eliminar aleatoriamente algunas palabras en el texto [24].
  • Aumento de sinónimos: use el diccionario de sinónimos PPDB [25] para reemplazar palabras seleccionadas al azar [26], o use el diccionario de sinónimos de WordNet . [27]
  • Aumento de datos de incrustación de palabras: reemplace las palabras con sus palabras similares top-n para crear nuevas oraciones. [28] propuso un método de aumento de datos basado en la incrustación de palabras para reemplazar palabras con sus palabras similares top-n para crear nuevas oraciones. Se consideran diferentes incrustaciones de palabras preentrenadas (por ejemplo, GoogleNews [29]). La idea detrás de este enfoque es que las palabras que están cerca unas de otras en el espacio incrustado tienden a aparecer en contextos similares, lo que puede ayudar a mantener la coherencia gramatical. Sin embargo, existe una falla grave en los métodos basados ​​en la incrustación, es decir, las palabras similares en el espacio de incrustación no son necesariamente similares semánticamente, pero los cambios semánticos afectarán los resultados de la clasificación . Por ejemplo, "caliente" y "frío" a menudo aparecen en contextos similares, por lo que sus incrustaciones de palabras están cerca, pero tienen una semántica completamente opuesta. **Algoritmos de mejora de cuasi-incrustación inversa [30], [31]** resuelven este problema ajustando las incrustaciones de palabras iniciales mediante el uso de diccionarios de sinónimos y antónimos. Específicamente, se acorta la distancia entre incrustaciones de sinónimos y se aumenta la distancia entre incrustaciones de antónimos.
  • Mejora del contexto [32-33]: use modelos de lenguaje enmascarado (MLM) como BERT [34-35], DistilBERT [36], RoBERTA [37] para generar nuevos textos basados ​​en el contexto. Específicamente, primero agregue la marca <máscara> en algunas posiciones del texto o reemplace algunas palabras en el texto con <máscara> y luego deje que el modelo de lenguaje de máscara (MLM) prediga qué palabras deben colocarse en la <máscara> donde son. Dado que los MLM están previamente entrenados en grandes cantidades de texto, el aumento contextual a menudo puede generar un nuevo texto significativo. Por ejemplo, la oración original en inglés es: "She is a pretty <mask> ." Dado que <mask> bloquea las palabras en la oración, los MLM se pueden usar para predecir, por ejemplo: "She is a pretty student ." , " Ella es una linda niña .", "Ella es una linda maestra "....

Aumento de datos a nivel de oración y texto:

  • Retrotraducción [38] (nivel de oración y texto): Aumento de datos usando modelos de traducción. Traduce texto a otro idioma y vuelve a traducirlo al idioma original. Debido a la aleatoriedad del proceso de traducción, el texto mejorado es diferente del texto original pero mantiene la coherencia semántica.
  • Parafraseo del documento: Gangal y otros [39] propusieron un método para parafrasear todo el documento a fin de mantener la coherencia a nivel de documento.

En general, independientemente del nivel de granularidad o la columna vertebral de generación de texto (es decir, basado en reglas o basado en modelos de lenguaje), el objetivo del aumento de datos es generar nuevas muestras plausibles y diversas para mantener la coherencia semántica.

4. Método

4.1 Marco general

inserte la descripción de la imagen aquí

Marco AugGPT. a (arriba): primero use XXX para el aumento de datos. Introduzca muestras de todas las categorías en XXX y solicite a XXX que genere muestras que sean semánticamente coherentes con las instancias etiquetadas existentes. b (abajo): en el siguiente paso, los autores entrenan un clasificador de oraciones basado en BERT en muestras pequeñas y muestras de datos generados, y evalúan el rendimiento de clasificación del modelo.

4.4 Método de línea de base

En la sección experimental, los autores comparan el método con otros métodos populares de aumento de datos. Para estos métodos, los autores utilizaron implementaciones en bibliotecas de código abierto, incluidas nlpag [83] y textattack [84].

  • InsertCharAugmentation: inserta caracteres aleatorios en posiciones aleatorias en el texto.

  • SubstituteCharAugmentation: reemplaza aleatoriamente los caracteres seleccionados.

  • SwapCharAugmentation[22]: Intercambia aleatoriamente dos personajes.

  • DeleteCharAugmentation: Elimina caracteres aleatoriamente.

  • OCRAugmentation: simule OCR para la mejora de datos, por ejemplo: reemplace "I" con "1" y "O" con "0".

  • Ortografía aumentada[23]: Errores ortográficos deliberados, por ejemplo: cambiar "porque" a "porque".

  • KeyboardAugmentation[22]: simule errores de escritura en el teclado, como cambiar la "s" por "w", "a", "z", "x", "d", "q", "e" y otros caracteres circundantes.

  • SwapWordAug[24]: intercambia aleatoriamente palabras en el texto, este método es un submétodo del método Easy Data Augmentation (EDA) propuesto por Wei et al.

  • DeleteWordAug: Elimina aleatoriamente palabras en el texto.

  • PPDBSynonymAug[26]: Tesauro PPDB para el reemplazo de sinónimos.

  • WordNetSynonymAug: diccionario de sinónimos de WordNet para el reemplazo de sinónimos.

  • SubstituteWordByGoogleNewsEmbeddings[28]: use la palabra incrustada incrustando espacio para reemplazar las primeras n palabras similares. (Las incrustaciones de palabras utilizadas se entrenaron previamente con el corpus de GoogleNews).

  • InsertWordByGoogleNewsEmbeddings [83]: Selecciona aleatoriamente palabras del vocabulario del corpus de GoogleNews y las inserta en posiciones aleatorias en el texto.

  • CounterFittedEmbeddingAug: Reemplaza las palabras con sus vecinos en el espacio de incrustación contrarrestado. En comparación con el vector de palabras de GoogleNews utilizado por googlenewsembeddings, la incrustación antisimulación introduce las restricciones de sinónimos y antónimos, es decir, la incrustación entre sinónimos se acercará y viceversa.

  • ContextualWordAugUsingBert(Insert): este método usa BERT para insertar palabras según el contexto, es decir, agrega una etiqueta <mask> en una posición aleatoria del texto de entrada y luego deja que BERT prediga la marca en esa posición.

  • ContextualWordAugUsingDistilBERT(Insert): este método usa DistilBERT en lugar de BERT para la predicción, y el resto es igual que ContextualWordAugUsingBert(Insert).

  • ContextualWordAugUsingRoBERTA(Insert): este método usa RoBERTA en lugar de BERT para la predicción, y el resto es igual que ContextualWordAugUsingBert(Insert).

  • ContextualWordAugUsingBert(Substitute): este método [32-33] usa BERT para realizar el reemplazo de palabras según el contexto, es decir, reemplaza una palabra seleccionada al azar en el texto con <máscara> y luego deja que BERT prediga el contenido de la posición.

  • ContextualWordAugUsingDistilBERT(Substitute): este método usa RoBERTA en lugar de BERT para la predicción, y el resto es igual que ContextualWordAugUsingBert(Substitute).

  • ContextualWordAugUsingRoBERTA(Substitute): Este método [38] traduce un texto primero al alemán y luego al inglés, dando como resultado un nuevo texto que es diferente al original pero tiene la misma semántica.

4.6 Indicadores de evaluación

Los autores utilizan la similitud del coseno y TransRate [86] como indicadores para evaluar el realismo de los datos aumentados (es decir, si las muestras de datos generados están cerca de las muestras originales) y la compacidad (es decir, si las muestras de cada categoría son lo suficientemente compactas como para distinguirlas bien). ) .

4.6.1 Semejanza de coseno

Para evaluar la similitud semántica entre las muestras generadas por el método de aumento de datos y las muestras reales, se utiliza la similitud de incrustación entre las muestras generadas y las muestras reales del conjunto de datos de prueba . Algunas de las medidas de similitud más comunes incluyen la distancia euclidiana, la similitud del coseno y la similitud del producto escalar. En este estudio, los autores eligen la similitud del coseno para capturar la relación de distancia en el espacio latente . La similitud del coseno mide el coseno del ángulo entre dos vectores. Este valor aumenta y está acotado entre 0 y 1 a medida que los dos vectores se vuelven más similares. Dado que el modelo de lenguaje preentrenado sin un ajuste fino es difícil de capturar la semántica, el autor utiliza el método BERT-flow[87] para ajustar el BERT preentrenado en el conjunto de datos básicos y, finalmente, aplica el ajuste fino. BERT para obtener la incrustación de muestra. La medida de similitud del coseno se usa comúnmente en PNL [88], y los autores siguen esta convención.

4.6.2.Tasa de transferencia

TransRate es un indicador para cuantificar la transferibilidad en función de la información mutua entre las características extraídas por un modelo previamente entrenado y sus etiquetas, lo que requiere solo un recorrido de los datos de destino. Esta medida alcanza su valor mínimo cuando la matriz de covarianza de los datos es la misma para todas las clases, lo que hace imposible distinguir entre diferentes clases de datos, lo que hace imposible que cualquier clasificador logre mejores resultados que las conjeturas aleatorias. Por lo tanto, un TransRate más alto puede indicar una mejor capacidad de aprendizaje de los datos.

6. Resumen y Discusión

Este artículo propone un nuevo método de aumento de datos para la clasificación de pocos disparos. A diferencia de otros métodos, este modelo amplía los datos limitados a nivel semántico para mejorar la consistencia y solidez de los datos, logrando así un mejor rendimiento que la mayoría de los métodos actuales de aumento de datos de texto. Con el desarrollo de LLM y su naturaleza de estudiantes multitarea [77], una serie de tareas en NLP se pueden mejorar o incluso reemplazar de manera similar.

Aunque AugGPT ha mostrado buenos resultados en el aumento de datos, tiene ciertas limitaciones. Por ejemplo, en el reconocimiento y aumento de texto médico, AugGPT puede producir resultados de aumento incorrectos debido a la falta de conocimiento del dominio en XXX . En trabajos futuros, los autores estudiarán la adaptación de modelos de lenguaje extenso de dominio general (como XXX) a datos de dominio específico, como textos médicos, mediante el ajuste fino del modelo, el aprendizaje del contexto (ingeniería de sugerencias), la destilación del conocimiento, el estilo transferencia, etc

AugGPT demuestra que aumentar los resultados puede mejorar efectivamente el rendimiento de las tareas de clasificación posteriores. Una dirección prometedora para futuras investigaciones es estudiar AugGPT en una gama más amplia de tareas posteriores. Por ejemplo, XXX tiene una gran capacidad de extracción de puntos clave y capacidad de comprensión de oraciones, que se pueden utilizar para tareas como resúmenes de texto. Específicamente, XXX puede ser valioso para resúmenes de artículos científicos específicos de dominio [90] y resúmenes de informes clínicos [91]. Los conjuntos de datos disponibles públicamente de resúmenes de artículos científicos de dominio específico y los conjuntos de datos de informes clínicos son muy raros y generalmente están disponibles a pequeña escala debido a preocupaciones de privacidad y la necesidad de conocimiento experto. Sin embargo, XXX puede abordar este desafío generando diferentes muestras de resumen aumentadas con diferentes estilos de representación. Los datos generados por XXX suelen ser muy concisos, lo que es valioso para mejorar aún más la capacidad de generalización del modelo entrenado.

El fuerte aumento de los modelos de imágenes generativas como DALLE2 [92] y Stable Diffusion [93] brinda la oportunidad de aplicar AugGPT a tareas de aprendizaje de pocas tomas en visión artificial. Por ejemplo, las descripciones precisas del lenguaje se pueden usar para guiar modelos generativos para generar imágenes a partir de texto o como métodos de aumento de datos para tareas de aprendizaje de pocas tomas, especialmente en combinación con métodos eficientes de ajuste fino [94], [95] como LoRA para difusión estable. Por lo tanto, el conocimiento previo de los grandes modelos de lenguaje puede facilitar una adaptación más rápida al dominio y un mejor aprendizaje de pocos intentos de los modelos generativos en la visión artificial.

Estudios recientes han demostrado que los modelos de lenguaje extenso (LLM), como XXX-3 y XXX, son capaces de resolver tareas de teoría de la mente (ToM), que anteriormente se pensaba que eran exclusivas de los humanos [96]. Si bien las habilidades similares a las de un tom del LLM pueden ser un subproducto no deseado de un rendimiento mejorado, la conexión potencial entre la ciencia cognitiva y el cerebro humano es un área madura para la exploración. Los avances en las ciencias cognitivas y del cerebro también se pueden utilizar para inspirar y optimizar el diseño de los LLM. Por ejemplo, se ha sugerido que los patrones de activación de las neuronas en el modelo BERT y los de la red del cerebro humano pueden tener similitudes y pueden acoplarse entre sí [97]. Esto proporciona una nueva dirección prometedora para el desarrollo de LLM utilizando conocimientos previos de la ciencia del cerebro. A medida que los investigadores continúan estudiando la conexión entre los LLM y el cerebro humano, los autores pueden descubrir nuevas formas de mejorar el rendimiento y las capacidades de los sistemas de IA, lo que conducirá a avances emocionantes en el campo.

Supongo que te gusta

Origin blog.csdn.net/m0_38068876/article/details/131381417
Recomendado
Clasificación