Para hacer frente a la situación de generar textos de riesgo, se propone un método de desintoxicación simple y eficaz para los LLM.

e852f8f827ecdeb8971f6099bd3d4bf2.png

Autor: Tang Zecheng, Zhou Keyan
Unidad: Instituto de Inteligencia Artificial, Universidad de Soochow

Título del trabajo:

[2308.08295] Desintoxicar el modelo de lenguaje paso a paso (arxiv.org)

Código de tesis:

https://github.com/codinnlg/detox-cot

Antecedentes de la investigación

En los últimos años, dado que el modelo de lenguaje grande (Large Language Model, LLM) muestra un excelente rendimiento en tareas de procesamiento del lenguaje natural, la seguridad de los modelos grandes debe tomarse en serio. Trabajos recientes han demostrado [1][2][3]. LLM puede generar texto tóxico durante el proceso de generación, incluido contenido ofensivo, que incite al odio y sesgado, lo que supone un riesgo para los usuarios. La toxicidad es una propiedad inherente de LLM, porque LLM inevitablemente aprende algún contenido tóxico durante el entrenamiento. Es cierto que la desintoxicación de modelos grandes es difícil, porque el modelo de lenguaje no sólo necesita conservar la capacidad generativa original, sino que también necesita que el modelo evite generar algún contenido "específico". Al mismo tiempo, los métodos de desintoxicación tradicionales generalmente editan el contenido generado por el modelo [4] [5], o agregan un cierto sesgo al modelo [6] [7], estos métodos a menudo tratan la tarea de desintoxicación como una tarea posterior específica. , lo que daña la capacidad más esencial del modelo de lenguaje grande: la capacidad de generación, lo que da como resultado resultados insatisfactorios de la generación del modelo después de la desintoxicación.

Este trabajo combina tareas de desintoxicación con tareas de generación tradicionales (como la generación de dominio abierto) a través de la cadena de pensamiento, de modo que el modelo puede elegir si desintoxicarse y la granularidad de la desintoxicación según diferentes escenarios. Al mismo tiempo, el modelo generará según el texto después de la desintoxicación, para garantizar la producción de contenido de alta calidad tanto como sea posible.

trabajo relacionado

Comenzamos categorizando los esfuerzos actuales de desintoxicación en modelos grandes.

60bb4f6d01f20e5587497c7323d01b9c.png
Figura 1: Clasificación de los métodos de desintoxicación existentes

Teniendo en cuenta la dificultad de entrenar modelos de lenguaje grandes en el aprendizaje por refuerzo [10], desintoxicamos los modelos de lenguaje grandes desde la perspectiva del modelado del lenguaje. Los trabajos existentes tratan la desintoxicación como una tarea única, que puede lograr la conversión directa de contenido tóxico a no tóxico. Según diferentes métodos, se puede dividir en post-entrenamiento, modificación de la distribución de probabilidad generacional y conversión de estilo.

Sin embargo, los resultados anteriores muestran que este método de un solo paso afectará la calidad de la generación del modelo, como la fluidez y consistencia del contenido generado [8]. Analizamos que esto se debe a la inconsistencia entre el objetivo de desintoxicación y el objetivo generativo del modelo, es decir, el modelo de lenguaje seguirá generando señales tóxicas y el método de desintoxicación obligará al modelo a generar en la dirección opuesta (evitando la modelo genere contenido tóxico), por lo tanto, como resultado, el contenido generado es inconsistente con el texto anterior o la fluidez se reduce (Figura 2 d). Por lo tanto, pensamos desde la perspectiva del paradigma de generación de modelos de lenguaje: primero, la entrada se desintoxica manualmente y luego las indicaciones después de la desintoxicación se utilizan para guiar la generación del modelo. Los resultados experimentales muestran que este método no solo puede mejorar el efecto de la desintoxicación. , pero también mejorar la calidad del texto generado.

aabe084317e8343230ce9559e8ac6139.png
Figura 2: Experimento inicial

Desafortunadamente, aunque el enfoque anterior es teóricamente factible, el modelo de lenguaje grande actual carece de la capacidad de desintoxicar textos orientativos tóxicos, incluida la capacidad de detectar toxicidad y conversión de estilo (Tabla 1).

9720322e17282522f384b1c5b88133d6.png
Tabla 1: Rendimiento de la tarea de desintoxicación del modelo grande

tecnología del método

Con base en los hallazgos anteriores, primero descompusimos la tarea de desintoxicación para combinarla mejor con otras tareas de generación y diseñamos la siguiente cadena de pensamiento (Figura 3) (también conocida como Detox-Chain) para estimular el modelo: Diferentes capacidades en el proceso de desintoxicación , incluida la detección de toxicidad de entrada, la conversión de estilo y la capacidad de continuar generando de acuerdo con el texto de desintoxicación. Proporcionamos dos métodos para construir datos, que consisten en utilizar múltiples modelos de código abierto para generar y utilizar ingeniería rápida para guiar la generación de ChatGPT.

a54d73d63bce6bc6d7ffdeb066cec547.png
Figura 3: Descripción general de Detox-Chain

3.1 Detección de fragmentos tóxicos

El uso de API listas para usar nos permite detectar fácilmente contenido tóxico en el texto. Sin embargo, cuando tratamos con grandes cantidades de datos, el uso de estas API puede llevar más tiempo (requiere operaciones de división de los datos sin procesar). Por lo tanto, entrenamos un modelo Span-CNN (Fig. 4) que puede evaluar automáticamente la toxicidad de cada n-grama en el texto. Entre ellos, un extractor de características global obtiene puntuaciones de toxicidad a nivel de oración, un modelo CNN 1-D [9] y un extractor de características local puede obtener puntuaciones de toxicidad a nivel de segmento. Durante el entrenamiento, dado un texto que contiene n segmentos y un núcleo de convolución, la función de pérdida se puede definir como:

2201aa4a01f1f07aed3e4d9b7e772ecd.png

Tanto para las etiquetas como para , calculamos las puntuaciones de toxicidad utilizando la API Perspective. Al mismo tiempo, para resolver el problema del desequilibrio de datos causado por muy pocos fragmentos tóxicos y demasiados fragmentos no tóxicos durante el entrenamiento, utilizamos la mejora de datos y aumentamos el coeficiente de penalización de los fragmentos tóxicos para mejorar la precisión de la predicción de la toxicidad de los fragmentos. .

La puntuación final de toxicidad a nivel de fragmento se puede expresar como

0a3b8fd6d3a16a36eb84a575563973e8.png a5d02c262d11de52c40f7a84b60d9d5e.png
Figura 4: Estructura del modelo Span-CNN

3.2 Reconstrucción de fragmentos tóxicos

Para desintoxicar la parte tóxica en el mensaje, introducimos la reconstrucción de fragmentos tóxicos, que se pueden dividir en dos pasos: Span Masking y Span Fulfilling .

(1) Span Masking : utilice la etiqueta especial "<MASK>" para reemplazar los fragmentos tóxicos detectados.

(2) Cumplimiento de intervalo : utilice el modelo de llenado de máscara ya preparado para restaurar el mensaje enmascarado a un mensaje no tóxico y conservar la información semántica original tanto como sea posible. Dado que el modelo de llenado de máscaras puede generar contenido tóxico, adoptamos un enfoque de generación iterativa (Fig. 5) para garantizar que el contenido generado no sea tóxico.

905c927afbf748577ff5ebf968b773d7.png
Figura 5: Proceso de generación iterativo

3.3 Continuación del texto

Usamos el modelo listo para usar para continuar escribiendo el mensaje no tóxico reescrito y adoptamos un método de generación iterativo para garantizar que el contenido de la escritura continua no sea tóxico. Para evitar inconsistencias semánticas causadas por los pasos anteriores que reemplazan demasiado contenido original, filtramos los resultados generados en función de puntuaciones de similitud y perplejidad. Específicamente, consideramos que los resultados con puntuaciones de similitud bajas o puntuaciones de perplejidad altas son irrelevantes y sustituimos los resultados del modelo por texto especial.

3.4 ChatGPT construye una cadena de pensamiento de desintoxicación

Además, también utilizamos el modelo de OpenAI [10]. En cada uno de los pasos anteriores, el contenido de los pasos correspondientes se genera mediante el diseño del modelo guiado por indicaciones. Para conocer el proceso de construcción específico, consulte nuestro documento.

Resultados experimentales

Seleccionamos los conjuntos de prueba de RealToxicityPrompts (RTP) y WrittingPrompt (WP) para evaluar el rendimiento del modelo (Tabla 2, 3) y logramos el rendimiento SOAT en probabilidad de toxicidad máxima esperada, SIM, Edición y PPL.

e6cfbd0b2355963eb44ce14b255e1e61.png
Tabla 2: Rendimiento de cada modelo en el conjunto de datos RealToxicityPrompts
f629809471e843bd7358aa6c87343212.png
Tabla 3: Rendimiento de cada modelo en el conjunto de datos de WritetingPrompts

4.1 Influencia de los parámetros del modelo

En comparación con el tamaño del modelo, la probabilidad de generación de toxicidad del modelo está más relacionada con los datos de entrenamiento, lo que también es consistente con la conclusión del trabajo anterior (citar). Además, al examinar el rendimiento de los modelos LLaMA de 7B, 13B y 33B, encontramos que los modelos más grandes tendían a generar más contenido tóxico cuando eran inducidos por indicaciones tóxicas.

4.2 Mejora de la instrucción Ajuste del modelo grande

La toxicidad máxima esperada y la probabilidad de generación de toxicidad (probabilidad de toxicidad) del modelo Alpaca-7B son menores que las del modelo LLaMA-7B, lo que indica que el modelo ajustado tiene una mayor capacidad de desintoxicación [11].

4.3 Generalización de diferentes estructuras modelo

Además de los modelos de solo decodificador como GPT2 y LLaMA, descubrimos que Detox-Chain también se puede generalizar a estructuras de codificador-decodificador, como Flan-T5, y Flan-T5-XL tiene una probabilidad de toxicidad mejorada. 90,44% en el conjunto de datos RTP y 72,17% en el conjunto de datos WP, respectivamente.

análisis de experimentos

Diseñamos un experimento de ablación para comparar la diferencia entre el rendimiento del modelo entrenado con el conjunto de datos de desintoxicación creado por el modelo de código abierto (Pipeline) y el conjunto de datos creado por ChatGPT. Además, también mostramos la tasa de éxito de cada paso intermedio en la fase de inferencia. Para más detalles, consulte el texto original.

5.1 Comparación entre la construcción de conjuntos de datos de cadenas de pensamiento

33b57a44b8c56630149373938115fa9d.png
Tabla 4: Comparación de rendimiento de modelos entrenados con datos de Pipeline y datos de ChatGPT respectivamente

El contenido generado utilizando datos de ChatGPT para entrenar el modelo exhibe puntuaciones de toxicidad promedio más bajas. Por otro lado, los modelos entrenados con datos de Pipeline exhiben una menor probabilidad de generación de toxicidad y una mayor similitud, diversidad y fluidez semántica. Esto puede deberse a que la parte de continuación en el paso de continuación de texto la genera el propio modelo grande en lugar de ChatGPT [6].

5.2 Análisis de pasos intermedios de razonamiento

e4f570384a78a2a5d1577eacb6ee4215.png
Tabla 5: La tasa de éxito de cada paso en la fase de inferencia

En la sección Detección de tóxicos, los modelos entrenados con datos de Pipeline y datos de ChatGPT son igualmente efectivos para identificar contenido tóxico, pero al identificar fragmentos tóxicos, el modelo entrenado con datos de Pipeline puede localizar fragmentos tóxicos de manera más completa. Para la tarea Span Masking, la mayor distancia de edición y la menor toxicidad indican que los datos de la canalización son más agresivos que los datos de ChatGPT para el enmascaramiento. En las tareas de Span Fulfilling y Continual Generation, el modelo entrenado con datos de canalización puede generar contenido más similar, mientras que el modelo entrenado con datos de ChatGPT genera menos toxicidad. La posible razón es que ChatGPT reduce la toxicidad mediante el aprendizaje por refuerzo (RLHF) [10], por lo que los datos generados son menos tóxicos.

Resumen y perspectivas

En este trabajo, mostramos que los métodos de desintoxicación de un solo paso, si bien son efectivos para reducir la toxicidad del modelo, degradan el poder generativo de los modelos de lenguaje grandes debido a fallas inherentes en el enfoque generativo autorregresivo. Esto se debe a que el modelo tiende a generar contenido a partir de señales tóxicas, mientras que los métodos de desintoxicación avanzan en la dirección opuesta. Para abordar este problema, descomponemos el proceso de desintoxicación en subpasos ordenados, donde el modelo primero desintoxica la entrada y luego genera continuamente contenido basado en señales no tóxicas. También calibramos las poderosas capacidades de inferencia de LLM vinculando estos subpasos con Detox-Chain, lo que permite que el modelo se desintoxice paso a paso. Seis potentes modelos de lenguaje grande de código abierto (que van desde 1B a 33B) con diferentes arquitecturas muestran una mejora significativa al entrenar con Detox-Chain. Nuestras investigaciones y experimentos también muestran que los LLM tienen mucho margen de mejora para mejorar sus capacidades de detección de toxicidad y responder adecuadamente a las señales tóxicas. Creemos firmemente que permitir que los grandes modelos lingüísticos generen contenido seguro es fundamental y todavía queda un largo camino por recorrer para lograr este objetivo.

Para obtener más detalles, consulte nuestro artículo.

referencias

  1. Capacidades de gpt-4 en problemas de desafío médico: https://arxiv.org/abs/2303.13375

  2. Los riesgos de radicalización de GPT-3 y los modelos avanzados de lenguaje neuronal: https://arxiv.org/abs/2009.06807

  3. La ciencia de las redes cognitivas revela un sesgo en GPT-3, ChatGPT y GPT-4 que refleja la ansiedad matemática en estudiantes de secundaria: https://arxiv.org/abs/2305.18320

  4. DExpertos: Generación de texto controlada en tiempo de decodificación con expertos y antiexpertos: https://aclanthology.org/2021.acl-long.522/

  5. GeDi: Generación de secuencias guiadas por discriminador generativo: https://aclanthology.org/2021.findings-emnlp.424/

  6. Exploración de los límites de la capacitación adaptativa al dominio para desintoxicar modelos lingüísticos a gran escala: https://papers.nips.cc/paper_files/paper/2022/file/e8c20cafe841cba3e31a17488dc9c3f1-Paper-Conference.pdf

  7. Modelos de lenguaje desintoxicantes con un corpus tóxico: https://aclanthology.org/2022.ltedi-1.6/

  8. Especialización de modelos de lenguaje más pequeños hacia el razonamiento de varios pasos: https://arxiv.org/abs/2301.12726

  9. Clasificación de ImageNet con redes neuronales convolucionales profundas: https://proceedings.neurips.cc/paper_files/paper/2012/file/c399862d3b9d6b76c8436e924a68c45b-Paper.pdf

  10. Entrenamiento de modelos de lenguaje para seguir instrucciones con retroalimentación humana: https://arxiv.org/abs/2203.02155

  11. Aprendizaje continuo a lo largo de toda la vida con redes neuronales: una revisión: https://arxiv.org/abs/1802.07569


Ingrese al grupo de PNL -> únase al grupo de intercambio de PNL

Supongo que te gusta

Origin blog.csdn.net/qq_27590277/article/details/132419453
Recomendado
Clasificación