Para evitar que los modelos grandes hagan el mal, el nuevo método de Stanford permite al modelo "olvidar" información dañina de la tarea y el modelo aprende a "autodestruirse"...

El viento del oeste proviene del
qubit del templo de Aofei | Cuenta pública QbitAI

¡Ya está aquí una nueva forma de evitar que los modelos grandes hagan el mal!

Ahora, incluso si el modelo es de código abierto, será difícil para las personas que quieran utilizarlo maliciosamente hacer que el modelo grande sea "malvado".

Si no me cree, simplemente lea este estudio.

Los investigadores de Stanford propusieron recientemente un nuevo método que puede evitar que un modelo grande se adapte a tareas dañinas después de entrenarlo con mecanismos adicionales.

Al modelo entrenado mediante este método lo denominan "modelo autodestructivo" .

4287dda1146edc888a8497388d30f695.png

El modelo de autodestrucción aún puede manejar tareas beneficiosas con un alto rendimiento, pero mágicamente "empeorará" cuando se enfrente a tareas dañinas.

El artículo fue aceptado por AAAI y recibió una mención de honor para el Premio al Mejor Trabajo Estudiantil.

Simular primero, luego destruir

Cada vez más modelos grandes son de código abierto, lo que permite que más personas participen en el desarrollo y optimización de modelos y desarrollen modelos que sean beneficiosos para la sociedad.

Sin embargo, el modelo de código abierto también significa que el costo del uso malicioso de modelos grandes también se reduce, por lo que tenemos que protegernos contra algunas personas (atacantes) con motivos ocultos.

Anteriormente, para evitar que alguien incitara maliciosamente a modelos grandes a hacer el mal, se utilizaban principalmente mecanismos de seguridad estructurales y mecanismos de seguridad técnicos . Los mecanismos de seguridad estructurales utilizan principalmente licencias o restricciones de acceso, pero frente al modelo de código abierto, el efecto de este método se debilita.

Esto requiere estrategias más técnicas para complementar. Sin embargo, los métodos existentes, como el filtrado de seguridad y la optimización de la alineación, se pueden omitir fácilmente mediante proyectos de ajuste o activación.

Los investigadores de Stanford propusieron utilizar tecnología de bloqueo de tareas para entrenar modelos grandes, de modo que el modelo pueda funcionar bien en tareas normales y al mismo tiempo evitar que se adapte a tareas dañinas.

90c628f98d8185ef857176acc17ef233.png

El método de bloqueo de tareas consiste en suponer que el atacante intenta modificar el modelo grande previamente entrenado para tareas dañinas y luego busca el mejor método de modificación del modelo.

Entonces, la dificultad de la transformación aumenta al aumentar los costos de datos y de computación.

En este estudio, los investigadores se centraron en formas de aumentar los costos de datos, es decir, reducir el efecto de pocas muestras del modelo, de modo que el rendimiento de pocas muestras del modelo en tareas dañinas sea cercano al del modelo inicializado aleatoriamente, que Significa que la transformación maliciosa requiere gastar más datos . Tanto es así que los atacantes prefieren entrenar el modelo desde cero que utilizar un modelo previamente entrenado.

Específicamente, para evitar que el modelo previamente entrenado se adapte con éxito a tareas dañinas, los investigadores propusieron un algoritmo MLAC (Meta-Learned Adversarial Censoring) que utiliza metaaprendizaje (Meta-Learned) y aprendizaje adversario para entrenar la autodestrucción. modelo .

MLAC utiliza el conjunto de datos de tareas beneficiosas y el conjunto de datos de tareas perjudiciales para realizar metaentrenamiento en el modelo:

ed3dee4a229e3c85ebc02311be85ac2a.png
Programa de formación MLAC

El algoritmo simula varios posibles ataques de adaptación en el bucle interno y actualiza los parámetros del modelo en el bucle externo para maximizar la función de pérdida en tareas dañinas, es decir, actualizar los parámetros para resistir estos ataques.

A través de este ciclo interno y externo de confrontación, el modelo "olvida" información relacionada con tareas dañinas y logra un efecto de autodestrucción.

Luego aprende la inicialización de parámetros que funciona bien en tareas beneficiosas pero que es difícil de adaptar en tareas dañinas.

5235e019ba7377d93a26588f46f7c846.png
proceso de metaaprendizaje

En general, MLAC encuentra las ventajas locales o puntos de silla de las tareas dañinas simulando el proceso de adaptación del adversario y mantiene el óptimo global en las tareas beneficiosas.

2f24f2c7f0f9fc2c044e81295bd2cfc5.png

Como se muestra arriba, al planificar la posición del modelo previamente entrenado en el espacio de parámetros, puede aumentar la dificultad de ajustarlo.

El modelo grande colocado en el punto 1 se puede ajustar fácilmente mediante un descenso de gradiente para obtener la solución óptima global para la pérdida de tareas dañina y la pérdida de tareas deseada.

Por otro lado, un modelo grande colocado en el punto 2 puede alcanzar fácilmente la solución óptima de la tarea deseada, pero es más probable que caiga en la solución óptima local de la tarea dañina.

La inicialización del modelo obtenida de esta manera es fácil de adaptar al óptimo global en tareas beneficiosas, pero cae en ventajas locales en tareas dañinas y es difícil de transformar.

¡La aguja con efecto de autodestrucción no pincha!

Para probar el rendimiento del "modelo de autodestrucción" entrenado con el método anterior, los investigadores realizaron un experimento.

Primero, los investigadores prepararon un conjunto de datos biográficos: Bias in Bios.

Luego consideraron que la tarea de identificación de género era perjudicial y la tarea de clasificación ocupacional como beneficiosa. Sobre la base del conjunto de datos original, reemplazar todos los nombres con "ellos/sus" aumenta la dificultad de la tarea de reconocimiento de género.

En el conjunto de datos no procesados, el modelo aleatorio solo necesitó 10 ejemplos para lograr más del 90% de precisión en la clasificación de género.

Luego, el modelo se entrena previamente con 50.000 pasos de MLAC.

En las pruebas, los investigadores tomaron el modelo de autodestrucción generado y lo ejecutaron a través de una rigurosa búsqueda de hiperparámetros para maximizar el rendimiento ajustado en tareas dañinas .

Además, los investigadores también extrajeron un subconjunto del conjunto de verificación como conjunto de entrenamiento del atacante para simular la situación en la que el atacante solo tiene datos limitados.

Pero permite al atacante utilizar el conjunto de validación completo cuando busca hiperparámetros. Esto significa que, aunque el atacante solo tiene datos de entrenamiento limitados, puede explorar hiperparámetros en la cantidad total de datos .

Si en este caso el modelo entrenado por MLAC todavía es difícil de adaptar a tareas dañinas, puede demostrar mejor su efecto autodestructivo.

Luego, los investigadores compararon MLAC con los siguientes métodos:

  • Inicializar aleatoriamente el modelo

  • BERT ajustado solo en tareas útiles

  • Método de entrenamiento de confrontación simple.

ba1a35cf195ea242700187b72b3149e3.png
Desempeño de tareas dañinas (identificación de género) afinado. El sombreado indica intervalos de confianza del 95 % en 6 semillas aleatorias.

Se descubrió que el desempeño de tareas dañinas del modelo de autodestrucción entrenado por el método MLAC era cercano al del modelo de inicialización aleatoria en todas las cantidades de datos. Sin embargo, el método simple de entrenamiento adversario no reduce significativamente el rendimiento de ajuste en tareas dañinas.

En comparación con el simple entrenamiento adversario, el mecanismo de metaaprendizaje de MLAC es crucial para producir efectos autodestructivos.

aea895c8c2aa2b810b9df78489536aa2.png
La influencia del número de pasos del bucle interno K en el algoritmo MLAC, K = 0, es equivalente a un entrenamiento de confrontación simple

Además, el rendimiento de pocos disparos del modelo MLAC supera al modelo ajustado de BERT en tareas beneficiosas:

815c250c6ce570c98fe1cc666734a628.png
Después de realizar ajustes para la tarea deseada, el rendimiento de pocos disparos del modelo de autodestrucción MLAC supera al de BERT y los modelos de inicialización aleatoria.

Enlace del artículo: https://arxiv.org/abs/2211.14946

Supongo que te gusta

Origin blog.csdn.net/QbitAI/article/details/132726221
Recomendado
Clasificación