Conferencia Académica Superior de Inteligencia Artificial - Lista de temas de NeurIPS 2022 (Dirección de seguridad de la red), resumen y resumen

Nota : Con el auge de los modelos grandes, la IA una vez más ha alcanzado su punto máximo y ha recibido cada vez más atención. En el campo de la seguridad de la red, además de las cuatro principales cumbres de seguridad, también se publicarán en AI algunos temas de seguridad relacionados con la IA, incluida la investigación sobre el ataque y la defensa de la IA, y la dirección de investigación de la aplicación de la IA para la seguridad. cumbre Sin embargo, NeurIPS tiene 2.834 temas en 2022 (todavía se solicitan documentos en 2023), y lleva mucho tiempo revisarlos manualmente, sin mencionar clasificar los temas de seguridad, que es aún más laborioso, por lo que uso IA para clasificar temas , identifique y traduzca automáticamente temas de interés, lo que puede ahorrar mucho tiempo para la selección de temas. Otras cumbres de IA también tienen miles de temas cada año, demasiados para ver. En cuanto a la clasificación de temas de este trabajo, se encuentra que GPT4 es más preciso y otros no son buenos, el segundo lugar es Claude+, seguido de ChatGPT. Sin embargo, el uso de GPT4 es limitado, por lo que no se puede utilizar directamente para analizar estos casi 3000 problemas. En resumen, también es un buen intento de usar un modelo grande para obtener información sobre el desarrollo tecnológico de la industria. La próxima vez que tenga tiempo, puede desarrollar un "sistema de conocimiento de tecnología de seguridad de red basado en IA". un buen nombre: "Ojo de águila".

39945cf0810aa2fbab0f15702988cbbd.png

Resumir

Los temas sobre seguridad de la red en la cumbre NeurIPS cubren principalmente las siguientes direcciones:

  1. Ejemplo de ataque y defensa contradictorios : sigue siendo un tema candente, incluido el entrenamiento contradictorio, la defensa contradictoria, la solidez de la cuantificación, etc. En la actualidad, la situación conocida del atacante está básicamente resuelta, pero no existe una forma efectiva de enfrentar el ataque desconocido.

  2. Envenenamiento de datos, ataque de puerta trasera y defensa : Los ataques de puerta trasera han ido en aumento durante mucho tiempo, pero todavía existen problemas que son difíciles de eliminar y detectar las puertas traseras existentes. La defensa actual aún necesita mejoras.

  3. Aprendizaje automático privado : el aprendizaje automático privado diferencial y el aprendizaje federado continúan mejorando, pero persisten los desafíos.

  4. Seguridad del aprendizaje por refuerzo : todavía hay poco trabajo sobre los desafíos de las puertas traseras y la confrontación en el aprendizaje por refuerzo.

Direcciones populares:

  1. Muestra adversaria de ataque y defensa;

  2. Ataque y defensa de envenenamiento de datos;

  3. Aprendizaje automático de privacidad.

Dirección impopular:

  1. Repensar la solidez de las CNN utilizando el dominio de la frecuencia;

  2. Mejore la clasificación de texto con comentarios en las redes sociales; 

  3. Considere agregar un método de ataque para el cifrado de curvatura resistente a la cuántica.

Lo que merece más atención es la seguridad del aprendizaje por refuerzo, la solidez frente a ataques desconocidos y la seguridad de la red bajo la explicabilidad.

1e804935ca02b8ddafdd10f2e7df2c1e.png

1, Un marco general para auditar el aprendizaje automático diferencialmente privado

Fred Lu, Joseph Muñoz, Maya Fuchs, Tyler LeBlond, Elliott Zaresky-Williams, Edward Raff, Francis Ferraro, Brian Testa

Proponemos un marco para auditar estadísticamente las garantías de privacidad que ofrecen los aprendices automáticos diferencialmente privados en la práctica. Si bien estudios anteriores tomaron medidas para evaluar la pérdida de privacidad a través de ataques de contaminación o inferencia de membresía, todos se adaptaron a modelos específicos o demostraron un bajo poder estadístico. Nuestro trabajo desarrolla un enfoque general que combina métodos mejorados de búsqueda y verificación de privacidad con un conjunto de herramientas de ataque de contaminación basado en impacto para evaluar empíricamente la privacidad lograda por el aprendizaje automático diferencialmente privado. Demostramos capacidades de auditoría significativamente mejoradas en una variedad de modelos que incluyen regresión logística, bayesiano ingenuo y bosques aleatorios. Nuestro método se puede utilizar para detectar violaciones de privacidad debido a errores de implementación o mal uso. Cuando no hay infracciones, puede ayudar a comprender la cantidad de información filtrada para un conjunto de datos, un algoritmo y una norma de privacidad determinados.

Enlace en papel: https://proceedings.neurips.cc/paper_files/paper/2022/file/1add3bbdbc20c403a383482a665eb5a4-Paper-Conference.pdf

8785b6d3eb5ae8386d64a0f610aec263.png

2、Una evaluación unificada del aprendizaje de puerta trasera textual: marcos y puntos de referencia

Ganqu Cui, Lifan Yuan, Bingxiang He, Yangyi Chen, Zhiyuan Liu, Maosong Sun

Los ataques de puerta trasera de texto son una amenaza real para los sistemas NLP. Al inyectar una puerta trasera durante la fase de entrenamiento, los atacantes pueden controlar las predicciones del modelo a través de disparadores predefinidos. Dado que se han propuesto varios modelos de ataque y defensa, es importante realizar una evaluación rigurosa. Sin embargo, destacamos dos problemas con las evaluaciones previas del aprendizaje de puerta trasera: (1) ignorar las diferencias en los escenarios del mundo real (como la liberación de conjuntos de datos o modelos tóxicos), y creemos que cada escenario tiene sus propias limitaciones y preocupaciones, por lo que una evaluación específica se requiere protocolo; (2) La métrica de evaluación solo considera si el ataque puede cambiar la predicción del modelo en muestras tóxicas y mantener el rendimiento en muestras benignas, pero ignora que las muestras tóxicas también deben ser encubiertas y preservar la semántica. Para abordar estos problemas, dividimos el trabajo existente en tres escenarios prácticos, en los que los atacantes liberan conjuntos de datos, modelos previamente entrenados y modelos ajustados, respectivamente, y luego analizamos sus métodos de evaluación únicos. En términos de métricas, para evaluar completamente las muestras tóxicas, utilizamos el aumento de errores gramaticales y la diferencia de perplejidad para medir el ocultamiento y la similitud del texto para medir la efectividad. Siguiendo el marco canónico, desarrollamos un conjunto de herramientas de código abierto, OpenBackdoor, para facilitar la implementación y evaluación del aprendizaje de puerta trasera textual. Usando este conjunto de herramientas, llevamos a cabo extensos experimentos para comparar los modelos de ataque y defensa bajo el paradigma propuesto. Para facilitar las defensas inexploradas contra conjuntos de datos tóxicos, también proponemos CUBE, una línea de base simple pero poderosa para las defensas basadas en clústeres. Esperamos que nuestro marco y punto de referencia puedan servir como piedra angular para el desarrollo y la evaluación de futuros modelos.

Enlace en papel: https://proceedings.neurips.cc/paper_files/paper/2022/file/2052b3e0617ecb2ce9474a6feaf422b3-Paper-Datasets_and_Benchmarks.pdf

a2b80dic6403df6678288effeb4b0323.png

3, Aceleración de la capacitación en robustez certificada a través de la transferencia de conocimientos

Pratik VaishnaviKevin EykholtAmir Rahmati

El entrenamiento de clasificadores de redes neuronales profundas para que sean demostrablemente robustos frente a ataques adversarios es crucial para garantizar la seguridad y confiabilidad de los sistemas de control de IA. Aunque se han desarrollado muchos métodos de capacitación de certificación de última generación, son computacionalmente costosos y escalan mal con respecto a la complejidad del conjunto de datos y la red. El uso generalizado de la capacitación certificada se ve obstaculizado aún más por el hecho de que es necesario volver a capacitar regularmente para incorporar nuevos datos y mejoras en la red. En este documento, proponemos un marco general denominado Transferencia de Robustez Certificada (CRT) para reducir la sobrecarga computacional de cualquier método de entrenamiento demostrablemente robusto a través de la transferencia de conocimiento. Dado un maestro robusto, nuestro marco transfiere la robustez del maestro al estudiante usando una pérdida de entrenamiento novedosa. Brindamos validación teórica y empírica de los CRT. Nuestros experimentos en CIFAR-10 muestran que CRT acelera el entrenamiento de robustez de certificación en un promedio de 8 veces en tres generaciones de arquitectura diferentes mientras logra una robustez comparable a los métodos más avanzados. También mostramos que CRT escala a conjuntos de datos a gran escala como ImageNet.

Enlace en papel: https://proceedings.neurips.cc/paper_files/paper/2022/file/22bf0634985f4e6dbb1fb40e247d1478-Paper-Conference.pdf

c23ac6cc587fdb022d1abdf014f35698.png

4、Adv-Attribute: Ataque adversario discreto y transferible en el reconocimiento facial

Shuai Jia, Bangjie Yin, Taiping Yao, Shouhong Ding, Chunhua Shen, Xiaokang Yang, Chao Ma

Los modelos de aprendizaje profundo muestran su vulnerabilidad cuando se trata de ataques adversarios. Casi todos los ataques existentes se realizan en instancias de bajo nivel, como píxeles y superpíxeles, y rara vez explotan pistas semánticas. Para los ataques de reconocimiento facial, los métodos existentes suelen generar perturbaciones l_p-norm en los píxeles; sin embargo, esto conduce a una baja capacidad de transferencia de ataques y una alta vulnerabilidad a los modelos de defensa que eliminan el ruido. En este trabajo, en lugar de perturbar píxeles de bajo nivel, proponemos generar ataques perturbando la semántica de alto nivel para mejorar la transferencia de ataques. Específicamente, diseñamos un marco unificado y flexible: Adversarial Attributes (Adv-Attribute) para generar ataques discretos y transferibles en el reconocimiento facial, que se basa en las diferencias en las características de reconocimiento facial de los objetivos. Diseña el ruido del adversario y agrégalo a diferentes propiedades. Además, presentamos una selección de atributos consciente de la importancia y una estrategia de optimización multiobjetivo para garantizar aún más el equilibrio entre sigilo y fuerza de ataque. Una gran cantidad de experimentos en los conjuntos de datos FFHQ y CelebA-HQ demuestran que el método Adv-Attribute propuesto logra la tasa de éxito de ataque más avanzada mientras mantiene un buen efecto visual.

Enlace del artículo: https://proceedings.neurips.cc/paper_files/paper/2022/file/dccbeb7a8df3065c4646928985edf435-Paper-Conference.pdf

690bb0dd269940813fd2db6bb8a3f728.png

5、Ataque adversario a los atacantes: proceso posterior para mitigar los ataques de consulta basados ​​en puntajes de caja negra

Sizhe Chen, Zhehao Huang, Qinghua Tao, Yingwen Wu, Cihang Xie, Xiaolin Huang

Los ataques de consulta basados ​​en puntajes (SQA) representan una amenaza real para las redes neuronales profundas al crear perturbaciones antagónicas utilizando solo los puntajes de salida del modelo en docenas de consultas. Sin embargo, observamos que si la tendencia de pérdida de la producción se altera ligeramente, los SQA pueden confundirse fácilmente y, por lo tanto, volverse menos efectivos. Basándonos en esta idea, proponemos un método de defensa novedoso, Adversarial Attack Against Attacker (AAA), para confundir a los SQA modificando ligeramente los logits de salida para que se desarrollen en la dirección de ataque incorrecta. De esta forma, (1) los SQA pueden evitarse independientemente de la robustez del modelo en el peor de los casos; (2) la predicción del modelo original apenas cambiará, es decir, la precisión limpia no disminuirá; (3) al mismo tiempo tiempo La calibración de las puntuaciones de confianza podría mejorarse. Llevamos a cabo extensos experimentos para verificar las ventajas anteriores. Por ejemplo, al establecer ℓ∞=8/255 como AAA en CIFAR-10, nuestra AAA propuesta puede ayudar a WideResNet-28 a lograr un 80,59 % de precisión en un ataque cuadrado (2500 consultas), mientras que la mejor defensa previa (es decir, entrenamiento adversario) solo logra un 67,44 % exactitud. Dado que AAA ataca la estrategia codiciosa general de los SQA, la ventaja de AAA sobre 8 defensas puede mantenerse en 6 SQA, 8 modelos CIFAR-10/ImageNet utilizando diferentes objetivos de ataque, límites, normas, pérdidas y estrategias observadas. Además, AAA mejora la calibración sin comprometer la precisión. Nuestro código está disponible en https://github.com/Sizhe-Chen/AAA.

Enlace en papel: https://proceedings.neurips.cc/paper_files/paper/2022/file/5fa29a2f163ce2020769eca8956e2d77-Paper-Conference.pdf

fadf66671277972728c0205063ff0b8c.png

6、La robustez adversaria está reñida con el entrenamiento perezoso

Yunjuan Wang, Enayat Ullah, Poorya Mianjy, Raman Arora

Trabajos recientes han demostrado que existen ejemplos antagónicos de redes neuronales estocásticas [Daniely y Schacham, 2020], y estos se pueden encontrar mediante el ascenso de gradiente de un solo paso [Bubeck et al., 2021]. En este artículo, ampliamos esta investigación al "entrenamiento perezoso" de las redes neuronales: modelos que dominan la teoría del aprendizaje profundo en el que se puede demostrar que las redes neuronales son eficientes y fáciles de aprender. Mostramos que las redes neuronales sobreparametrizadas pueden garantizar un buen rendimiento de generalización y sólidas garantías computacionales, pero siguen siendo vulnerables a los ataques generados mediante el ascenso de gradiente de un solo paso.

Enlace en papel: https://proceedings.neurips.cc/paper_files/paper/2022/file/2aab664e0d1656e8b56c74f868e1ea69-Paper-Conference.pdf

130e954c3f4e8631a318f78431726148.png

7、Entrenamiento adversarial con etiquetas complementarias: sobre el beneficio de los ataques gradualmente informativos

Jianan Zhou, Jianing Zhu, Jingfeng ZHANG, Tongliang Liu, Gang Niu, Bo Han, Masashi Sugiyama

La investigación sobre el entrenamiento adversario (AT) con supervisión incompleta ha recibido una atención limitada a pesar de su importancia. Para empujar AT hacia un escenario más realista, exploramos un entorno novedoso y desafiante para AT utilizando etiquetas complementarias (CL) que especifican una clase a la que no pertenece una muestra de datos. Sin embargo, la combinación directa de AT con los métodos CL existentes conduce a fallas constantes, pero no en la línea de base simple del entrenamiento en dos etapas. En este documento, exploramos más a fondo este fenómeno e identificamos los desafíos fundamentales que enfrentan los AT y los CL, a saber, la optimización contradictoria intratable y los ejemplos contradictorios de baja calidad. Para abordar los problemas anteriores, proponemos una nueva estrategia de aprendizaje que utiliza un ataque de información paso a paso, que consta de dos componentes clave: 1) el ataque de calentamiento (Warm-up) aumenta suavemente el presupuesto de perturbación del adversario para facilitar la optimización del adversario con CL; 2 ) El ataque de pseudoetiqueta (PLA) integra predicciones de modelos progresivamente informativos en pérdidas suplementarias corregidas. Se llevan a cabo extensos experimentos para demostrar la efectividad de nuestro método en una variedad de conjuntos de datos de referencia. El código está disponible públicamente en: https://github.com/RoyalSkye/ATCL.

Enlace en papel: https://proceedings.neurips.cc/paper_files/paper/2022/file/959f70ee50044bed305e48e3484005a7-Paper-Conference.pdf

da2562ea74e5c462a48764c8a9c27331.png

8、Entrenamiento adversario para confiabilidad de alto riesgo

Daniel Ziegler, Seraphina Nix, Lawrence Chan, Tim Bauman, Peter Schmidt-Nielsen, Tao Lin, Adam Scherlis, Noah Nabeshima, Benjamin Weinstein-Raun, Daniel de Haas, Buck Shlegeris, Nate Thomas

En el futuro, es posible que se implementen potentes sistemas de IA en escenarios de alto riesgo en los que una sola falla podría tener consecuencias catastróficas. Una técnica para mejorar la seguridad de la IA en escenarios de alto riesgo es el entrenamiento contradictorio, que utiliza ejemplos generados por el adversario para entrenar para lograr un mejor rendimiento en el peor de los casos. En este trabajo, utilizamos una tarea de generación de lenguaje seguro ("evitar lesiones") como banco de pruebas para lograr una alta confiabilidad a través del entrenamiento contradictorio. Creamos una serie de técnicas de entrenamiento de adversarios, incluida una herramienta para ayudar a los adversarios humanos a encontrar y eliminar fallas en los filtros. En nuestra tarea, encontramos que es posible establecer umbrales de clasificador muy conservadores sin afectar significativamente la calidad de la salida filtrada. Descubrimos que el entrenamiento adversarial aumenta significativamente la solidez de los ataques adversarios en los que entrenamos, triplicando el tiempo para descubrir ejemplos adversarios sin la herramienta para duplicar con nuestra herramienta (de 13 minutos a 26 minutos), sin afectar el rendimiento en distribución. Nos gustaría ver más trabajo en configuraciones de confiabilidad de alto riesgo, incluidas herramientas más poderosas para aumentar los adversarios humanos y mejores formas de medir la alta confiabilidad hasta que podamos descartar con confianza que los modelos robustos sean catastróficos cuando se implementen con posibilidad de falla.

Enlace en papel: https://proceedings.neurips.cc/paper_files/paper/2022/file/3c44405d619a6920384a45bce876b41e-Paper-Conference.pdf

2d95a167908b8313b62a96f919a45d01.png

9、Amplificación de la exposición de los miembros a través del envenenamiento de datos

Yufei Chen, Chao Shen, Yun Shen, Cong Wang, Yang Zhang

A medida que se utilizan más y más datos en la naturaleza en la fase de entrenamiento, las aplicaciones de aprendizaje automático se vuelven más vulnerables a los ataques de contaminación de datos. Estos ataques a menudo dan como resultado una pérdida de precisión o errores de juicio controlados durante las pruebas. En este documento, investigamos una tercera forma de explotar la contaminación de datos: aumentar el riesgo de violaciones de la privacidad en muestras de capacitación benignas. Con este fin, demostramos un conjunto de ataques de contaminación de datos para amplificar la exposición de los miembros de una categoría objetivo. Primero proponemos un ataque general de etiqueta sucia contra los algoritmos de clasificación supervisada. Luego, bajo el escenario de transferencia de aprendizaje, proponemos un ataque de etiqueta limpia basado en optimización, donde las muestras contaminadas se etiquetan correctamente y son "naturales" para evadir la revisión humana. Evaluamos exhaustivamente nuestros ataques a puntos de referencia de visión artificial. Nuestros resultados muestran que el ataque propuesto puede mejorar sustancialmente la precisión de la inferencia de membresía mientras minimiza la caída general en el rendimiento del modelo en el momento de la prueba. Para mitigar los posibles efectos negativos de nuestros ataques, también investigamos posibles contramedidas.

Enlace del artículo: https://proceedings.neurips.cc/paper_files/paper/2022/file/c0f240bb986df54b38026398da1ae72a-Paper-Conference.pdf

93fae83aa992595db62f9b5ba31df613.png

10, Histogramas anónimos en modelos de privacidad intermedios

Badih Ghazi, Pritish Kamath, Ravi Kumar, Pasin Manurangsi

Estudiamos el problema de la computación privada de histogramas anónimos (también conocidos como histogramas sin etiqueta), definidos como histogramas sin etiquetas de elementos. El trabajo anterior proporcionó algoritmos con errores ℓ1 y ℓ22 de Oε(√n) en un modelo central de privacidad diferencial (DP). En este trabajo, proporcionamos un algoritmo con garantías de error casi coincidentes, ˜Oε(√n), en modelos de privacidad global y DP barajados. Nuestro algoritmo es muy simple: ¡simplemente procesa el histograma del ruido de Laplace discreto! Usando este algoritmo como una subrutina, demostramos aplicaciones a propiedades simétricas de la distribución de estimaciones secretas, como entropía, cobertura de soporte y tamaño de soporte.

Enlace en papel: https://proceedings.neurips.cc/paper_files/paper/2022/file/380afe1a245a3b2134010620eae88865-Paper-Conference.pdf

c60e82fd24be01f8b06faaab8108a60e.png

11, ¿Estás robando mi modelo? Muestra de correlación para la toma de huellas dactilares de redes neuronales profundas

Jiyang Guan, Jian Liang, Ran He

Un modelo ya hecho como servicio comercial puede enfrentar ataques de robo de modelos, lo que representa una gran amenaza para los derechos e intereses de los propietarios de modelos. La tecnología de huellas digitales de modelos tiene como objetivo verificar si un modelo sospechoso es robado de un modelo víctima, lo que ha atraído cada vez más la atención en la actualidad. Los métodos anteriores suelen utilizar ejemplos adversarios transferibles como huellas dactilares modelo, que son muy sensibles para la defensa adversaria o los escenarios de aprendizaje de transferencia. Para abordar este problema, consideramos la relación por pares entre las muestras y proponemos un método de detección de robo de modelos novedoso y simple basado en la correlación de muestras (SAC). Específicamente, proponemos SAC-w, que toma muestras normales mal clasificadas como entrada del modelo y calcula la correlación promedio entre sus salidas del modelo. Para acortar el tiempo de entrenamiento, desarrollamos aún más SAC-m, que toma muestras aumentadas de CutMix como entrada del modelo sin entrenar un modelo proxy ni generar ejemplos contradictorios. Los amplios resultados verifican que SAC resiste con éxito varios ataques de robo de modelos, incluso incluido el entrenamiento adversario o el aprendizaje de transferencia, y muestra el mejor rendimiento en diferentes conjuntos de datos y arquitecturas de modelos con AUC como indicador. El código está disponible en https://github.com/guanjiyang/SAC.

Enlace en papel: https://proceedings.neurips.cc/paper_files/paper/2022/file/ed189de2611f200bd4c2ab30c576e99e-Paper-Conference.pdf

018acb9d2627220cc2055b22abbec4b6.png

12, Perturbaciones autorregresivas para el envenenamiento de datos

Pedro Sandoval-Segura, Vasu Singla, Jonas Geiping, Micah Goldblum, Tom Goldstein, David Jacobs

La popularidad del raspado de redes sociales como medio para obtener conjuntos de datos ha generado una creciente preocupación por el uso no autorizado de datos. Los ataques de envenenamiento de datos se han propuesto como una línea de defensa contra la recopilación porque hacen que los datos no se puedan aprender al agregar perturbaciones diminutas e imperceptibles. Desafortunadamente, los enfoques existentes requieren conocimiento de la arquitectura de destino e información sobre el conjunto de datos completo para entrenar una red proxy cuyos parámetros se utilizan para generar el ataque. En este documento, presentamos el envenenamiento autorregresivo (AR), un método que puede generar datos de envenenamiento sin acceso a conjuntos de datos más amplios. La perturbación autorregresiva propuesta es general y se puede aplicar a diferentes conjuntos de datos y envenenar diferentes arquitecturas. En comparación con los métodos no aprendibles existentes, nuestra toxina AR es más resistente a las defensas comunes, como el entrenamiento adversario y el fuerte aumento de datos. Nuestro análisis proporciona además información sobre lo que constituye toxinas de datos efectivas.

Enlace en papel: https://proceedings.neurips.cc/paper_files/paper/2022/file/af66ac99716a64476c07ae8b089d59f8-Paper-Conference.pdf

5caea550db874adcb3680f4d7be0c33c.png

13, BackdoorBench: un punto de referencia completo de aprendizaje de puerta trasera

Baoyuan Wu, Hongrui Chen, Mingda Zhang, Zihao Zhu, Shaokui Wei, Danni Yuan, Chao Shen

El aprendizaje de puerta trasera es un tema emergente e importante en el estudio de la vulnerabilidad de las redes neuronales profundas. Muchos métodos pioneros de ataque y defensa por la puerta trasera se están proponiendo uno tras otro en un estado de rápida carrera armamentista. Sin embargo, encontramos que la evaluación de nuevos métodos a menudo no es lo suficientemente exhaustiva como para verificar sus afirmaciones y su desempeño preciso, principalmente debido al rápido desarrollo, diferentes entornos y dificultades en la implementación y reproducción. Sin una evaluación y comparación exhaustivas, es difícil seguir el progreso actual y diseñar una hoja de ruta para el desarrollo futuro de la literatura. Para aliviar este dilema, construimos un punto de referencia integral de aprendizaje de puerta trasera llamado BackdoorBench. Consiste en una base de código extensible basada en módulos (que actualmente incluye implementaciones de 8 algoritmos de ataque de última generación y 9 de defensa de última generación) y un protocolo estandarizado para un aprendizaje backdoor completo. También realizamos una evaluación completa de cada par entre 8 ataques y 9 defensas, utilizando 5 modelos y 4 conjuntos de datos, por lo que hay 8000 evaluaciones de pares en total. Brindamos un rico análisis de estas 8,000 evaluaciones desde diferentes perspectivas, investigando la influencia de diferentes factores en el aprendizaje de puerta trasera. Todo el código y las evaluaciones de BackdoorBench están disponibles públicamente en https://backdoorbench.github.io.

Enlace en papel: https://proceedings.neurips.cc/paper_files/paper/2022/file/4491ea1c91aa2b22c373e5f1dfce234f-Paper-Datasets_and_Benchmarks.pdf

91f586594c055e41e197272d567d19f0.png

14, BadPrompt: ataques de puerta trasera en avisos continuos

Xiangrui Cai, Haidong Xu, Sihan Xu, Ying ZHANG, Yuan xiaojie

Recientemente, el paradigma del aprendizaje basado en señales ha recibido una amplia atención de la investigación. Logra un rendimiento de última generación en varias tareas de procesamiento de lenguaje natural, especialmente en el caso de pocas tomas. Aunque mientras se inician las tareas posteriores, pocos trabajos han abordado los problemas de seguridad de los modelos basados ​​​​en sugerencias. Este documento lleva a cabo el primer estudio sobre la vulnerabilidad de ataque de puerta trasera del algoritmo de aprendizaje continuo de pistas. Observamos que el caso de pocas tomas plantea un gran desafío para los modelos basados ​​en sugerencias de puerta trasera, lo que limita la usabilidad de los métodos de puerta trasera existentes para el procesamiento del lenguaje natural. Para hacer frente a este desafío, proponemos BadPrompt, un algoritmo ligero y adaptable a tareas para alertas continuas en ataques de puerta trasera. Específicamente, BadPrompt primero genera disparadores candidatos que pueden predecir la etiqueta de destino y son diferentes a las muestras de etiquetas que no son de destino. Luego utiliza un algoritmo de optimización de disparo adaptativo para seleccionar automáticamente el disparo más eficiente e invisible para cada muestra. Evaluamos el rendimiento de BadPrompt en cinco conjuntos de datos y dos modelos de solicitud continuos. Los resultados muestran que BadPrompt es capaz de atacar de manera efectiva las indicaciones continuas mientras mantiene un alto rendimiento en un conjunto de prueba limpio, superando con creces a los modelos de referencia. El código fuente de BadPrompt está disponible públicamente.

Enlace en papel: https://proceedings.neurips.cc/paper_files/paper/2022/file/f0722b58f02d7793acf7d328928f933a-Paper-Conference.pdf

ceb450143c4306cc30cb3a3ce36d576f.png

15, BagFlip: una defensa certificada contra el envenenamiento de datos

Yuhao Zhang, Aws Albarghouthi, Loris D'Antoni

Los modelos de aprendizaje automático son vulnerables a los ataques de contaminación de datos, en los que los atacantes modifican maliciosamente el conjunto de entrenamiento para cambiar los resultados de predicción del modelo de aprendizaje. En un ataque sin disparador, el atacante puede modificar el conjunto de entrenamiento pero no la entrada de prueba, mientras que en un ataque de puerta trasera, el atacante también puede modificar la entrada de prueba. Los métodos de defensa independientes del modelo existentes no logran manejar los ataques de puerta trasera o no brindan pruebas efectivas (es decir, pruebas de defensa). Proponemos BagFlip, un método de autenticación agnóstico del modelo que puede defenderse de manera efectiva contra ataques sin disparador y de puerta trasera. Evaluamos BagFlip en conjuntos de datos de clasificación de imágenes y detección de malware. Para los ataques sin activación, BagFlip es comparable o más efectivo que los métodos más avanzados, y para los ataques de puerta trasera, BagFlip es más efectivo que los métodos más avanzados.

Enlace en papel: https://proceedings.neurips.cc/paper_files/paper/2022/file/cc19e4ffde5540ac3fcda240e6d975cb-Paper-Conference.pdf

8c04908eae890b60d8cde81ab379d6f4.png

16. Ataques de Blackbox a través de la búsqueda de conjuntos sustitutos

Zikui Cai, Chengyu Song, Srikanth Krishnamurthy, Amit Roy-Chowdhury, Salman Asif

Los ataques adversarios de caja negra se pueden dividir en dos tipos: transferencia y consulta. El método de transferencia no requiere ningún comentario del modelo de la víctima, pero tiene una tasa de éxito más baja en comparación con el método de consulta. Los ataques de consulta generalmente requieren una gran cantidad de consultas para tener éxito. Para lograr una combinación óptima de ambos enfoques, investigaciones recientes intentan combinarlos, pero aún requieren cientos de consultas para lograr una alta tasa de éxito (especialmente para ataques dirigidos). En este documento, proponemos un nuevo enfoque para los ataques de caja negra a través de Agent Ensemble Search (BASES), que puede generar ataques de caja negra altamente exitosos utilizando un número muy pequeño de consultas. Primero definimos una máquina de perturbación que genera imágenes perturbadas minimizando una función de pérdida ponderada sobre un conjunto de modelos sustitutos en un conjunto fijo. Para generar un ataque contra un modelo de víctima dado, buscamos sobre los pesos de la función de pérdida utilizando consultas perturbadas generadas por máquinas. Dado que la dimensionalidad del espacio de búsqueda es pequeña (igual que la cantidad de modelos sustitutos), la búsqueda requiere solo una pequeña cantidad de consultas. Demostramos que nuestro método propuesto puede lograr el 100 % utilizando al menos 30 veces menos consultas que los métodos de última generación cuando se utilizan diferentes clasificadores de imágenes capacitados en ImageNet (incluidos VGG-19, DenseNet-121 y ResNext-50). Mejor tasa de éxito. En particular, nuestro método requiere solo 3 consultas por imagen en promedio para lograr una tasa de éxito de más del 90 % para ataques dirigidos y más del 99 % para ataques no dirigidos con solo 1 o 2 consultas por tasa de éxito de imagen. Nuestro método también es efectivo en la API de Google Cloud Vision, que requiere solo 2,9 consultas por imagen para lograr una tasa de éxito de ataques no dirigidos del 91 %. También mostramos que las perturbaciones generadas por nuestro método propuesto son altamente transferibles y pueden usarse en ataques de caja negra de etiqueta dura. Además, argumentamos que las BASES se pueden utilizar para crear ataques para diversas tareas y demostrar su eficacia contra los modelos de detección de objetos. Nuestro código está disponible en https://github.com/CSIPlab/BASES.

Enlace en papel: https://proceedings.neurips.cc/paper_files/paper/2022/file/23b9d4e18b151ba2108fb3f1efaf8de4-Paper-Conference.pdf

b0af2572157c721b8fcd4959e48c4d9d.png

17, Impulso de la transferibilidad de ataques adversarios con perturbación adversaria inversa

Zeyu Qin, Yanbo Fan, Yi Liu, Li Shen, Yong Zhang, Jue Wang, Baoyuan Wu

Se ha demostrado que las redes neuronales profundas (DNN) son vulnerables a ejemplos contradictorios, que pueden producir predicciones incorrectas al inyectar perturbaciones imperceptibles. Este estudio explora la transferibilidad de los ejemplos contradictorios, que es un tema importante porque en las aplicaciones prácticas, la estructura o los parámetros del modelo generalmente se desconocen. Muchos estudios existentes han demostrado que es probable que los ejemplos contradictorios se adapten demasiado a los modelos de proxy que generan, lo que limita el rendimiento de los ataques de transferencia contra diferentes modelos objetivo. Para aliviar el problema de sobreajuste de los modelos sustitutos, proponemos un nuevo método de ataque llamado Perturbación Adversaria Inversa (RAP). Específicamente, defendemos que, en lugar de minimizar la pérdida de un solo punto adverso al buscar ejemplos antagónicos, nos centremos en encontrar ejemplos antagónicos ubicados en áreas de valores uniformes de pérdida baja, inyectando perturbaciones en el peor de los casos en cada paso del proceso de optimización. (es decir, contra perturbaciones en reversa). El ataque adversarial sobre RAP se formula como un problema de optimización de dos niveles de minimización-maximización. Al integrar RAP en el proceso iterativo del ataque, nuestro método puede encontrar ejemplos adversarios más estables que son menos sensibles a los cambios en el límite de decisión, aliviando así el problema de sobreajuste del modelo proxy. Las comparaciones experimentales integrales muestran que RAP puede mejorar significativamente la transferibilidad de los ejemplos contradictorios. Además, RAP se puede combinar naturalmente con muchas técnicas de ataque de caja negra existentes para mejorar aún más la transferibilidad. Al atacar un sistema práctico de reconocimiento de imágenes, la API de Google Cloud Vision, obtenemos una mejora del rendimiento del ataque dirigido del 22 % en relación con el método de comparación. Nuestro código está disponible en https://github.com/SCLBD/TransferattackRAP.

Enlace en papel: https://proceedings.neurips.cc/paper_files/paper/2022/file/c0f9419caa85d7062c7e6d621a335726-Paper-Conference.pdf

7fd2030cb32c5b0d5d4c1e7c4f780932.png

18、Reducción de ruido browniano: maximización de la privacidad sujeta a restricciones de precisión

Justin Whitehouse, Aaditya Ramdas, Steven Z. Wu, Ryan M. Rogers

Hay diferencias en la forma en que los investigadores y los profesionales abordan el problema de las ventajas y desventajas de la privacidad. Los investigadores parten principalmente de una perspectiva que prioriza la privacidad, estableciendo estrictos requisitos de privacidad y minimizando los riesgos dentro de estas restricciones. Los profesionales generalmente quieren adoptar una perspectiva de precisión primero y pueden estar satisfechos con obtener el máximo grado de protección de la privacidad bajo la premisa de obtener un error lo suficientemente pequeño. Ligett et al., propusieron un algoritmo de "reducción de ruido" para abordar la última perspectiva. Los autores muestran que al agregar ruido laplaciano correlacionado y reducir progresivamente el ruido según sea necesario, es posible producir una serie de estimaciones de parámetros privados cada vez más precisas, pagando un costo de privacidad solo para los resultados iterativos menos ruidosos. En este trabajo, generalizamos la "reducción de ruido" a la configuración del ruido gaussiano, introduciendo el mecanismo browniano. El mecanismo browniano funciona añadiendo primero ruido gaussiano de alta varianza, correspondiente al punto final del movimiento browniano simulado. Luego, a discreción del practicante, el ruido se reduce gradualmente a tiempos anteriores volviendo sobre el camino browniano hacia atrás. Nuestro mecanismo es más aplicable a configuraciones de sensibilidad ℓ2 limitadas comunes, demuestra empíricamente que supera el trabajo existente en tareas estadísticas comunes y puede proporcionar un control de pérdida de privacidad personalizable a lo largo de la interacción con los profesionales. Combinamos nuestro mecanismo browniano con ReducedAboveThreshold, que es una generalización del clásico algoritmo AboveThreshold, proporcionando garantías de privacidad adaptables. En general, nuestros resultados muestran que uno puede satisfacer las restricciones de utilidad y aun así mantener un alto nivel de protección de la privacidad.

Enlace en papel: https://proceedings.neurips.cc/paper_files/paper/2022/file/48aaa5ea741ae8430bd58e25917d267d-Paper-Conference.pdf

4ed0faeb38cbe17d71f5c81a509a352d.png

19, regresión de proceso gaussiano federado tolerante a bizantino para transmisión de datos

Xu Zhang, Zhenyuan Yuan, Minghui Zhu

Este documento considera el uso de la regresión del proceso gaussiano (GPR) para implementar el procesamiento de datos en tiempo real para el aprendizaje federado tolerante a fallas bizantino. Específicamente, una función latente es aprendida conjuntamente por la nube y un conjunto de agentes, algunos de los cuales pueden ser atacados por bizantinos. Desarrollamos un algoritmo GPR federado tolerante a fallas bizantinas que consta de tres módulos: GPR local basado en agente, GPR agregado basado en la nube y GPR fusionado basado en agente. Derivamos un límite superior del error de predicción basado en el error entre la media del GPR agregado de la nube y la función objetivo, asumiendo que menos de una cuarta parte de todos los agentes son agentes bizantinos. También caracterizamos los límites inferior y superior de la varianza de predicción. Realizamos experimentos en un conjunto de datos sintéticos y dos conjuntos de datos reales para evaluar el algoritmo propuesto.

Enlace en papel: https://proceedings.neurips.cc/paper_files/paper/2022/file/57c56985d9afe89bf78a8264c91071aa-Paper-Conference.pdf

f2971642f0058ff5758d67a03342ed6f.png

20、CATER: Protección de la propiedad intelectual en las API de generación de texto a través de marcas de agua condicionales

Xuanli He, Qiongkai Xu, Yi Zeng, Lingjuan Lyu, Fangzhao Wu, Jiwei Li, Ruoxi Jia

Investigaciones anteriores han verificado que las API de generación de texto pueden apropiarse indebidamente a través de ataques de suplantación de identidad, lo que lleva a violaciones de la propiedad intelectual. Con el fin de proteger los derechos de propiedad intelectual de las API de generación de texto, investigaciones recientes introducen un algoritmo de marca de agua y utilizan pruebas de hipótesis nulas como verificación de propiedad posterior para validar modelos de imitación. Sin embargo, encontramos que estas marcas de agua se pueden detectar con estadísticas suficientes de las frecuencias de los términos de las marcas de agua candidatas. Para abordar esta deficiencia, este documento propone un nuevo marco de marca de agua condicional (CATER) para proteger la propiedad intelectual de las API de generación de texto. Se propone un método de optimización para decidir sobre las reglas de marca de agua que minimizan la distorsión de la distribución general de palabras y maximizan la variación en la selección de palabras condicionales. En teoría, demostramos que incluso el atacante más inteligente (que sabe cómo funciona CATER) no puede revelar la marca de agua utilizada en función de la inspección estadística de una cantidad potencialmente grande de pares de palabras. Empíricamente, observamos que las condiciones de alto nivel conducen a un aumento exponencial de marcas de agua sospechosas (no utilizadas), lo que hace que nuestras marcas de agua cuidadosamente diseñadas sean aún más sigilosas. Además, CATER puede identificar de manera efectiva las infracciones de propiedad intelectual bajo ataques de imitación de dominios y desajustes de esquema, con poco impacto en la calidad de generación de las API de las víctimas. Vemos nuestro trabajo como un hito importante en la protección de los derechos de propiedad intelectual de las API de generación de texto.

Enlace en papel: https://proceedings.neurips.cc/paper_files/paper/2022/file/2433fec2144ccf5fea1c9c5ebdbc3924-Paper-Conference.pdf

510467efb77f36b27dd07f6bc698213c.png

21、¿Se puede manipular el entrenamiento adversario con características no robustas?

Lue Tao, Lei Feng, Hongxin Wei, Jinfeng Yi, Sheng-Jun Huang, Songcan Chen

El entrenamiento adversario se desarrolló originalmente para resistir ejemplos adversarios en tiempo de prueba, pero ha mostrado potencial para mitigar los ataques de disponibilidad de tiempo de entrenamiento. Sin embargo, este artículo desafía esta defensa. Identificamos un nuevo modelo de amenaza llamado ataque de estabilidad, cuyo objetivo es obstaculizar la disponibilidad robusta mediante una ligera manipulación de los datos de entrenamiento. Bajo esta amenaza, mostramos que en un entorno estadístico simple, el entrenamiento adversario con un presupuesto de defensa tradicional $\epsilon$ no proporciona robustez de prueba, donde las características no robustas de los datos de entrenamiento se pueden obtener mediante $\epsilon$ con perturbaciones de límite se fortalecen. Además, analizamos la necesidad de ampliar el presupuesto de defensa para contrarrestar los ataques a la estabilidad. Finalmente, los experimentos integrales muestran que los ataques de estabilidad son destructivos para los conjuntos de datos de referencia, por lo que las defensas adaptativas son necesarias para mantener la solidez.

Enlace del artículo: https://proceedings.neurips.cc/paper_files/paper/2022/file/a94a8800a4b0af45600bab91164849df-Paper-Conference.pdf

5b4000828230dede9dd72e72d691d5e3.png

22, Certificación de clasificación robusta de gráficos bajo amenazas ortogonales de Gromov-Wasserstein

Hongwei Jin, Zishun Yu, Xinhua Zhang

Los clasificadores de gráficos son vulnerables a los ataques topológicos. Si bien las credenciales de robustez se han desarrollado recientemente, sus modelos de amenazas solo consideran las perturbaciones de borde locales y globales, ignorando efectivamente estructuras gráficas importantes como el isomorfismo. Para abordar este problema, proponemos medir las perturbaciones utilizando distancias ortogonales de Gromov-Wasserstein y construir sus conjugados de Fenchel para la optimización convexa. Nuestro conocimiento clave proviene de la pérdida de coincidencia, que conecta dos variables a través de un operador monótono y proporciona una aproximación convexa ajustada a la distancia resistiva en los nodos del gráfico. Tanto nuestro certificado como el algoritmo de ataque han demostrado ser efectivos cuando se aplican a la clasificación de gráficos a través de redes convolucionales de gráficos.

Enlace en papel: https://proceedings.neurips.cc/paper_files/paper/2022/file/0b6b00f384aa33fec1f3d6bcf9550224-Paper-Conference.pdf

ff670bc1d48272018eea3ab1209414db.png

23, Chartalist: conjuntos de datos gráficos etiquetados para UTXO y cadenas de bloques basadas en cuentas

Kiarash Shamsi, Friedhelm Victor, Murat Kantarcioglu, Yulia Gel, Cuneyt G Akcora

El aprendizaje automático en gráficos de blockchain es un campo emergente con muchas aplicaciones, como el seguimiento de pagos de ransomware, el análisis de manipulación de precios y la detección de lavado de dinero. Sin embargo, el análisis de datos de blockchain requiere experiencia en el dominio y recursos informáticos, lo que constituye un obstáculo importante que dificulta el progreso en este campo. Presentamos Chartalist, la primera plataforma integral para acceder y utilizar sistemáticamente el aprendizaje automático en una gran cantidad de cadenas de bloques, para abordar este desafío. Chartalist incluye conjuntos de datos listos para el aprendizaje automático de salidas de transacciones no gastadas (UTXO) como Bitcoin y cadenas de bloques basadas en cuentas como Ethereum. Anticipamos que Chartalist puede facilitar el modelado, el análisis y la representación de datos de blockchain y atraer a una comunidad más amplia de científicos para analizar blockchains. Chartalist es una iniciativa de ciencia abierta en https://github.com/cakcora/Chartalist.

Enlace en papel: https://proceedings.neurips.cc/paper_files/paper/2022/file/e245189a86310b6667ac633dbb922d50-Paper-Datasets_and_Benchmarks.pdf

4593ec4d82a6efb28a58ae9088480c87.png

24, Imparcialidad contrafactual con gráfico causal parcialmente conocido

Aoqi Zuo, Susan Wei, Tongliang Liu, Bo Han, Kun Zhang, Mingming Gong

El aprendizaje automático justo tiene como objetivo evitar el trato injusto de individuos o subgrupos en función de "atributos sensibles" como el género y la raza. Un enfoque justo de aprendizaje automático basado en la inferencia causal identifica la discriminación y el sesgo a través de los efectos causales. Aunque el aprendizaje justo basado en la causalidad ha recibido una atención cada vez mayor, los métodos actuales asumen que el verdadero gráfico causal se conoce por completo. Este artículo propone un enfoque general para implementar la noción de equidad contrafactual en ausencia del conocimiento del verdadero gráfico causal. Para seleccionar características que conduzcan a la equidad contrafactual, derivamos condiciones y algoritmos para identificar relaciones ancestrales entre variables, especialmente en gráficos acíclicos parcialmente dirigidos (PDAG), una clase que se puede aprender a partir de datos de observación y conocimiento del dominio. Curiosamente, cuando se proporciona un conocimiento previo específico: los atributos sensibles no tienen ancestros en el gráfico causal, se puede lograr la equidad contrafactual, como si el verdadero gráfico causal se conociera por completo. Los resultados en conjuntos de datos simulados y del mundo real demuestran la efectividad de nuestro método.

Enlace en papel: https://proceedings.neurips.cc/paper_files/paper/2022/file/08887999616116910fccec17a63584b5-Paper-Conference.pdf

3edc820bf3db684edab3ae874abcc706.png

25. Proceso de punto temporal neuronal contrafactual para estimar la influencia causal de la desinformación en las redes sociales

Yizhou Zhang, Defu Cao, Yan Liu

Los últimos años han sido testigos del surgimiento de campañas de desinformación que difunden narrativas específicas en las redes sociales para manipular la opinión pública en diferentes dominios, como la política y la atención médica. Por lo tanto, se necesita un método automático eficaz y eficiente para estimar el impacto de la desinformación en las creencias y actividades de los usuarios. Sin embargo, los estudios existentes de estimación del impacto de la desinformación se basan en experimentos psicológicos a pequeña escala o solo pueden encontrar correlaciones entre el comportamiento del usuario y la desinformación. Para abordar estos problemas, este documento desarrolla un marco causal para modelar los efectos causales de la desinformación desde una perspectiva de proceso puntual. Para acomodar datos a gran escala, diseñamos un método que es eficiente y preciso para estimar los efectos del tratamiento individual (ITE) a través de procesos de puntos de tiempo neuronales y modelos de mezcla gaussiana. Extensos experimentos en conjuntos de datos sintéticos verifican la efectividad y eficiencia de nuestro modelo. Además, aplicamos nuestro modelo en un conjunto de datos reales de publicaciones en redes sociales y compromisos sobre las vacunas COVID-19. Los resultados experimentales muestran que nuestro modelo identifica un efecto causal identificable de la desinformación que daña el sentimiento subjetivo de las personas hacia las vacunas.

Enlace en papel: https://proceedings.neurips.cc/paper_files/paper/2022/file/45542d647974ca6af58441c4817c9b5b-Paper-Conference.pdf

757e0652cfa88d95e5137710372a5256.png

26、Daño contrafáctico

Jonathan Richens, Rory Beard, Daniel H. Thompson

Para actuar de manera segura y ética en el mundo real, un agente debe poder razonar sobre el daño y evitar acciones dañinas. Sin embargo, hasta la fecha, no ha habido una forma estadística de medir el daño e incorporarlo en la toma de decisiones algorítmica. En este artículo, proponemos la primera definición formal de daño y beneficio utilizando un modelo causal. Mostramos que cualquier definición fáctica de daño es incapaz de identificar el comportamiento dañino en algunas situaciones, y mostramos que los algoritmos estándar de aprendizaje automático que no pueden realizar un razonamiento contrafactual están garantizados para aplicar políticas dañinas después de los cambios de distribución. Aprovechamos nuestra definición de daño para diseñar un marco de decisión para evitar daños utilizando una función objetiva contrafáctica. Demostramos la aplicación de este marco al problema de determinar las dosis óptimas de fármacos mediante el uso de modelos de dosis-respuesta aprendidos de datos de ensayos controlados aleatorios. Encontramos que los métodos estándar de uso de efectos terapéuticos para seleccionar dosis conducen a dosis innecesariamente dañinas, mientras que nuestro enfoque contrafáctico identifica dosis que son significativamente menos dañinas pero que no afectan la eficacia.

Enlace en papel: https://proceedings.neurips.cc/paper_files/paper/2022/file/ebcf1bff7b2fe6dcc3fbe666faaa50f1-Paper-Conference.pdf

10402ceab268a262336ffee869eeaf7c.png

27, DISCO: Defensa contra adversario con funciones implícitas locales

Chih-Hui Ho, Nuno Vasconcelos

Este documento considera el problema de la defensa adversarial para la clasificación de imágenes, donde el objetivo es hacer que el clasificador sea robusto para los ejemplos adversarios. Inspirándose en la suposición de que estos ejemplos están más allá de la variedad de imágenes naturales, se propone una nueva defensa adversaria con función implícita local (DISCO) para eliminar las perturbaciones adversarias a través de la proyección múltiple local. DISCO usa una imagen antagónica y una ubicación de píxel de consulta, generando un valor RGB limpio en la ubicación. Se implementa mediante un codificador y un módulo implícito local, donde el primero produce características profundas por píxel y el segundo usa características en la vecindad del píxel de consulta para predecir valores RGB limpios. Extensos experimentos muestran que DISCO y sus versiones en cascada superan a las defensas anteriores, ya sea que el atacante las conozca o no. También se demuestra que DISCO es eficiente en cuanto a datos y parámetros y es capaz de defenderse en conjuntos de datos, clasificadores y ataques.

Enlace en papel: https://proceedings.neurips.cc/paper_files/paper/2022/file/96930636e3fb63935e2af153d1cc40a3-Paper-Conference.pdf

867f2ccada8efc040632dc9141edbcd1.png

28、DOPE: exploración doblemente optimista y pesimista para un aprendizaje reforzado seguro

Archana Bura, Aria HasanzadeZonuzy, Dileep Kalathil, Srinivas Shakkottai, Jean-Francois Chamberland

El aprendizaje reforzado seguro es extremadamente desafiante, no solo debe explorar en un entorno desconocido, sino que también debe garantizar que no se violen las restricciones de seguridad. Formulamos este problema de aprendizaje por refuerzo seguro utilizando un marco de proceso de decisión de Markov (CMDP) con restricciones de tiempo finito con funciones de probabilidad de transición desconocidas. Modelamos el requisito de seguridad como una restricción sobre el costo acumulativo esperado que debe cumplirse en todos los procesos de aprendizaje. Proponemos un algoritmo de aprendizaje por refuerzo seguro basado en modelos denominado "Exploración doblemente optimista y pesimista" (DOPE), y demostramos que aprende sin violar las restricciones de seguridad mientras logra un arrepentimiento objetivo $\tilde{O} (|\mathcal{S}| \sqrt{|\mathcal{A}| K})$. Entre ellos, $|\mathcal{S}|$ es el número de estados, $|\mathcal{A}|$ es el número de acciones y $K$ es el número de veces de aprendizaje. Nuestra idea clave es combinar la adición de recompensas de exploración (optimista) con restricciones conservadoras (pesimista), además de la exploración del modelo optimista estándar. DOPE no solo mejora el límite de arrepentimiento objetivo, sino que también muestra mejoras significativas en el rendimiento empírico con respecto a los métodos optimistas-pesimistas anteriores.

Enlace en papel: https://proceedings.neurips.cc/paper_files/paper/2022/file/076a93fd42aa85f5ccee921a01d77dd5-Paper-Conference.pdf

a79b76be7676f68d2eefa2eb74391b83.png

29, DReS-FL: aprendizaje federado seguro resistente a la deserción para clientes que no son IID a través del uso compartido de datos secretos

Jiawei Shao, Yuchang Sun, Songze Li, Jun Zhang

El aprendizaje federado (FL) tiene como objetivo permitir la capacitación colaborativa de modelos de aprendizaje automático y evitar la recopilación centralizada de datos privados de los clientes. A diferencia del entrenamiento centralizado, el conjunto de datos local del cliente en FL no es independiente y está distribuido de manera idéntica (no IID). Además, los clientes que poseen los datos pueden salir arbitrariamente del proceso de capacitación. Estas características reducirán significativamente el rendimiento del entrenamiento. Este documento propone un marco de "Aprendizaje federado seguro resistente a fallas" (DReS-FL) basado en computación codificada lagrangiana (LCC) para abordar problemas de fallas y no IID. La idea clave es utilizar la codificación lagrangiana para compartir en secreto el conjunto de datos privado entre los clientes, de modo que cada cliente reciba una versión codificada del conjunto de datos global y el cálculo del gradiente local para este conjunto de datos sea imparcial. Para decodificar correctamente el gradiente en el servidor, la función de gradiente debe ser un polinomio sobre un campo finito, por lo que construimos una red neuronal entera polinomial (PINN) para implementar nuestro marco. El análisis teórico muestra que DReS-FL es resistente a las fallas del cliente y brinda protección de privacidad para los conjuntos de datos locales. Además, nuestros resultados experimentales muestran que DReS-FL mejora consistentemente el rendimiento significativamente en comparación con los métodos de referencia.

Enlace en papel: https://proceedings.neurips.cc/paper_files/paper/2022/file/448fc91f669c15d10364ee01d512cc10-Paper-Conference.pdf

f4f8fbf66ecfb7ff4d47a7f401a3db52.png

30、Defensa contra ataques adversarios a través del sistema dinámico neuronal

Xiyuan Li, Zou Xin, Weiwei Liu

A pesar de su gran éxito, las redes neuronales profundas (DNN) se han visto obstaculizadas en su aplicación en dominios críticos para la seguridad debido a su vulnerabilidad a los ataques de adversarios. Algunos trabajos recientes proponen formas de mejorar la robustez de las DNN desde la perspectiva de los sistemas dinámicos. Guiados por esta línea de investigación, inspirada en la estabilidad asintótica de los sistemas dinámicos no autónomos generales, proponemos hacer de cada instancia limpia un punto de equilibrio asintóticamente estable de un sistema que varía lentamente en el tiempo contra los ataques adversarios. Proponemos una garantía teórica de que si una instancia limpia es un punto de equilibrio asintóticamente estable, y la instancia contradictoria está dentro de la vecindad de ese punto, la estabilidad asintótica reducirá el ruido adversario, acercando la instancia adversaria a la instancia limpia. Inspirándonos en nuestros resultados teóricos, proponemos además una ODA divina no autónoma (ASODE) y restringimos su correspondiente sistema lineal variable en el tiempo de modo que todas las instancias limpias sirvan como sus puntos de equilibrio asintóticamente estables. Nuestro análisis muestra que estas restricciones se pueden traducir en regularizadores en las implementaciones. Los resultados experimentales muestran que ASODE mejora la solidez frente a los ataques adversarios y supera a los métodos existentes.

Enlace en papel: https://proceedings.neurips.cc/paper_files/paper/2022/file/299a08ee712d4752c890938da99a77c6-Paper-Conference.pdf

56c2358e66547ad0fd6d5dfbd39e71dc.png

31, Profundizando en los parches secuenciales para la detección de Deepfake

Jiazhi Guan, Hang Zhou, Zhibin Hong, Errui Ding, Jingdong Wang, Chengbin Quan, Youjian Zhao

Los avances recientes en la tecnología de falsificación de rostros han dado lugar a la aparición de videos deepfake casi imposibles de rastrear, que podrían explotarse de manera maliciosa. Por lo tanto, los investigadores trabajan en la detección de deepfakes. Estudios anteriores han identificado la importancia de las señales locales de bajo nivel y la información temporal en la generalización de los métodos de falsificación profunda, sin embargo, todavía sufren de robustez en el posprocesamiento. En este trabajo, proponemos un marco de detección de falsificaciones profundas basado en transformadores (LTTD) con conciencia local y temporal, que emplea un protocolo de aprendizaje local a global que presta especial atención a la información temporal valiosa en secuencias locales. Específicamente, proponemos el Transformador de secuencia local (LST), que modela la consistencia temporal sobre secuencias de regiones espaciales restringidas, donde la información de bajo nivel se mejora jerárquicamente mediante filtros 3D poco profundos aprendidos. Con base en incrustaciones temporales locales, luego logramos la clasificación final de una manera contrastiva globalmente. Los extensos experimentos en conjuntos de datos populares validan nuestro método para descubrir de manera efectiva las señales de falsificación locales y lograr un rendimiento de última generación.

Enlace en papel: https://proceedings.neurips.cc/paper_files/paper/2022/file/1d051fb631f104cb2a621451f37676b9-Paper-Conference.pdf

3a14a6370a60177628156eb6e85ccfad.png

32, Compresión de modelo diferencialmente privado

Fatemeh Sadat Mireshghallah, Arturs Backurs, Huseyin A. Inan, Lukas Wutschitz, Janardhan Kulkarni

Los trabajos de investigación recientes han demostrado que los grandes modelos de lenguaje pre-entrenados como BERT, GPT-2 se pueden ajustar en datos privados para lograr un rendimiento comparable al de los modelos no privados para muchas tareas de procesamiento de lenguaje natural (NLP) aguas abajo, al tiempo que garantiza una privacidad diferencial. . Sin embargo, el costo de inferencia de estos modelos (que consisten en cientos de millones de parámetros) puede ser prohibitivo. Por lo tanto, en la práctica, los LLM a menudo se comprimen antes de implementarse en una aplicación específica. En este documento, nos propusimos estudiar la compresión de modelos privados diferencialmente y proponer un marco para lograr niveles de escasez del 50 % mientras se mantiene un rendimiento casi total. Demostramos estas ideas en el punto de referencia GLUE estándar utilizando un modelo BERT y establecemos un punto de referencia para futuras investigaciones sobre este tema.

Enlace en papel: https://proceedings.neurips.cc/paper_files/paper/2022/file/bd6bb13e78da078d8adcabbe6d9ca737-Paper-Conference.pdf

868da13f7b840851ab89e1977d05b4cd.png

33、Defensa eficaz de puerta trasera mediante la explotación de la sensibilidad de las muestras envenenadas

Weixin Chen, Baoyuan Wu, Haoqian Wang

Los ataques de puerta trasera envenenados representan una seria amenaza para el entrenamiento de modelos profundos a partir de datos de fuentes no confiables. Para los modelos de puerta trasera existentes, observamos que las representaciones de características de muestras envenenadas con disparadores son más sensibles a las transformaciones, mientras que las muestras limpias no lo son. Esto nos inspira a diseñar una métrica de sensibilidad simple llamada métrica de transformación de consistencia de características (FCT) para distinguir muestras envenenadas de muestras limpias en conjuntos de entrenamiento no confiables. Además, proponemos dos métodos efectivos de defensa de puerta trasera. El primer enfoque entrena un modelo seguro desde cero usando un módulo de entrenamiento seguro de dos etapas basado en un módulo de discriminación de muestra usando la métrica FCT. El segundo método elimina las puertas traseras de los modelos con puertas traseras utilizando un módulo de eliminación de puertas traseras que alternativamente no discrimina muestras envenenadas y vuelve a aprender muestras limpias distinguidas. Los amplios resultados de tres conjuntos de datos de referencia demuestran que ambos métodos logran un rendimiento defensivo superior contra ocho tipos de ataques de puerta trasera en comparación con las defensas de puerta trasera existentes. El código está disponible en: https://github.com/SCLBD/Effectivebackdoordefense.

Enlace en papel: https://proceedings.neurips.cc/paper_files/paper/2022/file/3f9bbf77fbd858e5b6e39d39fe84ed2e-Paper-Conference.pdf

b5af7a747d1bcb14a4b262c439e1385a.png

34 、 Evolución de los núcleos de tangente neural bajo entrenamiento benigno y antagónico

Noel Loo, Ramin Hasani, Alexander Amini, Daniela Rus

Dos desafíos principales que enfrenta el aprendizaje profundo moderno son mitigar la vulnerabilidad de las redes profundas a los ataques de adversarios y comprender la capacidad de generalización del aprendizaje profundo. Para el primer problema, se han desarrollado muchas estrategias de defensa, la más común de las cuales es el entrenamiento adversarial (AT). Para el segundo desafío, surgió una teoría líder, Neural Tangential Kernel (NTK), un método para caracterizar el comportamiento de las redes neuronales en el límite del ancho infinito. En este límite, el kernel se congela y el mapa de funciones subyacente se fija. Con un ancho limitado, existe evidencia de que el aprendizaje de características ocurre antes en la fase de entrenamiento (aprendizaje del kernel), después de lo cual el kernel permanece constante (entrenamiento perezoso). Si bien el trabajo anterior tenía como objetivo estudiar la vulnerabilidad de los adversarios congelando la perspectiva de NTK de ancho infinito, ninguno investigó la robustez de los adversarios para NTK durante el entrenamiento. En este trabajo, llevamos a cabo un estudio empírico de la evolución de NTK bajo entrenamiento estándar y entrenamiento contradictorio, con el objetivo de aclarar el impacto del entrenamiento contradictorio en el aprendizaje del kernel y el entrenamiento perezoso. Encontramos que bajo el entrenamiento adversario, NTK converge rápidamente a diferentes kernels (y mapas de funciones) que el entrenamiento estándar. Este nuevo kernel proporciona solidez adversaria incluso cuando se realiza un entrenamiento no robusto. Además, encontramos que el entrenamiento adversario sobre un núcleo fijo produce un clasificador con una precisión robusta de ε = 4/255 del 76,1% en el ataque PGD en CIFAR-10.

Enlace en papel: https://proceedings.neurips.cc/paper_files/paper/2022/file/4bc4e9ecd5ae4a75048dc216a770cba1-Paper-Conference.pdf

51ef12bf0399a5543c02499143964f42.png

35, Exploración de los límites del entrenamiento adaptativo de dominio para desintoxicar modelos de lenguaje a gran escala

Boxin Wang, Wei Ping, Chaowei Xiao, Peng Xu, Mostofa Patwary, Mohammad Shoeybi, Bo Li, Anima Anandkumar, Bryan Catanzaro

Se ha demostrado que los modelos de lenguaje preentrenados (LM) son propensos a la generación de lenguaje tóxico. En este trabajo, exploramos sistemáticamente el entrenamiento de adaptación de dominio para reducir la toxicidad del modelo de lenguaje. Realizamos este estudio en tres dimensiones: corpus de entrenamiento, tamaño del modelo y eficiencia de los parámetros. Para el corpus de entrenamiento, demostramos que el uso de conjuntos de datos generados automáticamente supera constantemente las líneas de base existentes, en una amplia gama de tamaños de modelos y evaluaciones automáticas y humanas, incluso cuando utiliza corpus de entrenamiento 3 × 1 más pequeños. Luego estudiamos exhaustivamente los LM desintoxicados con tamaños de parámetros que van desde 126M a 530B (3 veces más grande que GPT3), una escala que nunca antes se había estudiado. Encontramos que i) los LM grandes tienen niveles similares de toxicidad dado el mismo corpus preentrenado, y ii) los LM grandes requieren más esfuerzo para olvidar el contenido tóxico visto en el entrenamiento previo. También exploramos métodos de entrenamiento de desintoxicación eficientes en parámetros. Demostramos que agregar y entrenar capas solo de adaptador en LM no solo ahorra muchos parámetros, sino que también logra una mejor compensación entre toxicidad y perplejidad en modelos a gran escala. Nuestro código estará disponible en: https://github.com/NVIDIA/Megatron-LM/.

Enlace en papel: https://proceedings.neurips.cc/paper_files/paper/2022/file/e8c20cafe841cba3e31a17488dc9c3f1-Paper-Conference.pdf

417360883c2b4a3145a899a0135a59a5.png

36、FairVFL: un marco de aprendizaje federado vertical justo con aprendizaje contradictorio contrastivo

Tao Qi, Fangzhao Wu, Chuhan Wu, Lingjuan Lyu, Tong Xu, Hao Liao, Zhongliang Yang, Yongfeng Huang, Xing Xie

El aprendizaje federado vertical (VFL) es un paradigma de aprendizaje automático que preserva la privacidad y puede aprender modelos de características distribuidas en diferentes plataformas mientras mantiene la privacidad. Dado que en las aplicaciones del mundo real, los datos pueden estar sesgados en características sensibles a la equidad, como el género, los modelos VFL pueden heredar sesgos de los datos de entrenamiento y ser injustos para ciertos grupos de usuarios. Sin embargo, los métodos de aprendizaje automático justo existentes generalmente se basan en el almacenamiento centralizado de características sensibles a la equidad para lograr la equidad del modelo, que generalmente no es aplicable en escenarios federados. En este documento, proponemos un marco de aprendizaje federado longitudinal justo (FairVFL) que puede mejorar la equidad de los modelos VFL. La idea central de FairVFL es aprender una representación uniforme y justa de muestras basada en dominios funcionales descentralizados mientras se preserva la privacidad. Específicamente, cada plataforma con funciones independientes de la imparcialidad aprende primero las representaciones de datos locales a partir de las funciones locales. Estas representaciones locales luego se cargan en el servidor y se agregan en una representación unificada para la tarea de destino. Para aprender una representación unificada justa, la enviamos a cada plataforma que almacena características sensibles y aplicamos el aprendizaje contradictorio para eliminar el sesgo heredado de los datos sesgados. Además, para proteger la privacidad del usuario, proponemos un método de aprendizaje contradictorio contrastivo que elimina la información privada en la representación unificada en el servidor antes de enviarla a la plataforma que conserva características imparciales y confidenciales. Los experimentos en tres conjuntos de datos del mundo real verifican que nuestro método puede mejorar efectivamente la imparcialidad del modelo y proteger la privacidad del usuario.

Enlace en papel: https://proceedings.neurips.cc/paper_files/paper/2022/file/333a7697dbb67f09249337f81c27d749-Paper-Conference.pdf

a0a31b46a5c89168e479c7b43cbd95bf.png

37, Clasificadores de códigos neuronales con detección de fallas

Jeevana Priya Inala, Chenglong Wang, Mei Yang, Andres Codas, Mark Encarnación, Shuvendu Lahiri, Madanlal Musuvathi, Jianfeng Gao

Los modelos de lenguaje grande (LLM) han demostrado una capacidad impresionante para generar código en una variedad de tareas de programación. En muchos casos, los LLM pueden generar el programa correcto cuando se les dan varios intentos. Por lo tanto, una tendencia reciente es usar modelos para el muestreo de programas a gran escala y luego filtrar/clasificar según el rendimiento del programa en una pequeña cantidad de pruebas unitarias conocidas para seleccionar una solución candidata. Sin embargo, estos enfoques asumen que se realizan pruebas unitarias y que los programas resultantes (que pueden realizar operaciones peligrosas arbitrarias, como operaciones con archivos) se pueden ejecutar de forma segura. Ambas suposiciones anteriores son poco realistas en el desarrollo de software real. En este artículo, proponemos CodeRanker, un clasificador neuronal que predice la corrección de los programas muestreados sin ejecutar el programa. Nuestro CodeRanker es consciente de las fallas, es decir, está capacitado para predecir diferentes tipos de información de ejecución, como predecir tipos precisos de errores de compilación/tiempo de ejecución (por ejemplo, IndexError o TypeError). Mostramos que CodeRanker puede mejorar significativamente la precisión de pass@1 de varios modelos de generación de código (incluidos Codex, GPT-Neo, GPT-J) en los conjuntos de datos APPS, HumanEval y MBPP.

Enlace en papel: https://proceedings.neurips.cc/paper_files/paper/2022/file/5762c579d09811b7639be2389b3d07be-Paper-Conference.pdf

c95868ec12ebd817dae21c9f56e796d6.png

38, Búsqueda de puertas traseras físicas que ocurren naturalmente en conjuntos de datos de imágenes

Emily Wenger, Roma Bhattacharjee, Arjun Nitin Bhagoji, Josephine Passananti, Emilio Andere, Heather Zheng, Ben Zhao

La extensa literatura sobre envenenamiento de puerta trasera examina el uso de "patrones de activación digital" para ataques y defensas de puerta trasera. Por el contrario, las "puertas traseras físicas", que utilizan objetos físicos como disparadores, se identificaron recientemente y son cualitativamente diferentes de la mayoría de las defensas contra las puertas traseras activadas digitalmente. El estudio de las puertas traseras físicas está limitado por la adquisición de grandes conjuntos de datos que contienen imágenes de objetos reales ubicados junto con objetivos mal clasificados, y la construcción de dichos conjuntos de datos requiere mucho tiempo y esfuerzo. Este estudio tiene como objetivo abordar los desafíos de accesibilidad de la investigación de ataques físicos de puerta trasera. Asumimos que los objetos físicos coexistentes naturales ya existen en conjuntos de datos populares como ImageNet. Una vez identificados, el reetiquetado cuidadoso de estos datos puede convertirlos en muestras de entrenamiento para ataques físicos de puerta trasera. Proponemos un método para identificar de forma escalable estos subconjuntos de desencadenantes potenciales en conjuntos de datos existentes, así como las categorías específicas que pueden contaminar. Nos referimos a estos subconjuntos y categorías de desencadenantes naturales como conjuntos de datos de puerta trasera naturales. Nuestra técnica identifica con éxito puertas traseras naturales en conjuntos de datos ampliamente disponibles y produce modelos que tienen un comportamiento equivalente a los entrenados en conjuntos de datos seleccionados manualmente. Publicamos nuestro código para permitir que la comunidad de investigación cree sus propios conjuntos de datos para estudiar los ataques físicos de puerta trasera.

Enlace del artículo: https://proceedings.neurips.cc/paper_files/paper/2022/file/8af749935131cc8ea5dae4f6d8cdb304-Paper-Datasets_and_Benchmarks.pdf

a43f0382c2a6f399d7db6f3ddf3b8a50.png

39、Formulación de robustez contra ataques imprevistos

Sihui Dai, Saeed Mahloujifar, Prateek Mittal

Las defensas existentes contra los ejemplos adversarios (como el entrenamiento adversario) a menudo asumen que el adversario se ajustará a un modelo de amenaza específico o conocido, como la perturbación ℓp dentro de un presupuesto fijo. En este artículo, nos enfocamos en situaciones donde, durante el entrenamiento, el modelo de amenaza asumido por la defensa no coincide con las capacidades reales del adversario en el momento de la prueba. Planteamos la pregunta: si un alumno está capacitado en un modelo de amenaza "fuente" específico, ¿cuándo podemos esperar una generalización sólida a un modelo de amenaza "objetivo" desconocido? Nuestra contribución clave es la definición formal del problema del aprendizaje y la generalización frente a adversarios desconocidos, lo que nos ayuda a inferir un mayor riesgo de adversario desde la perspectiva tradicional de adversarios conocidos. Al aplicar nuestro marco, derivamos un límite de generalización que relaciona la brecha de generalización entre los modelos de amenaza de origen y de destino con el cambio en el extractor de características, que mide la diferencia entre las características extraídas bajo el modelo de amenaza dado. Con base en nuestro límite de generalización, proponemos la regularización de variación (VR), que reduce la variación de los extractores de características bajo el modelo de amenaza fuente durante el entrenamiento. Demostramos empíricamente que el uso de la realidad virtual conduce a una mejor generalización de los ataques desconocidos en el momento de la prueba, y la combinación de la realidad virtual con el entrenamiento de confrontación perceptivo (Laidlaw et al., 2021) logra una robustez de vanguardia para los ataques desconocidos. Nuestro código está disponible públicamente en https://github.com/inspire-group/variation-regularization.

Enlace en papel: https://proceedings.neurips.cc/paper_files/paper/2022/file/392ac56724c133c37d5ea746e52f921f-Paper-Conference.pdf

45764e64f54344892d0855750238a863.png

40、Ruido amigable contra el ruido adversario: una poderosa defensa contra el ataque de envenenamiento de datos

Tian Yu Liu, Yu Yang, Baharan Mirzasoleiman

Una clase poderosa (invisible) de ataques de contaminación de datos altera las predicciones de algunos datos de prueba al aplicar pequeñas perturbaciones antagónicas a algunas muestras de entrenamiento. Los mecanismos de defensa existentes no son viables en la práctica, ya que tienden a perjudicar gravemente el rendimiento de la generalización o son específicos de un ataque y difíciles de aplicar. Aquí, proponemos un método simple pero altamente efectivo que, a diferencia de los métodos existentes, rompe varios tipos de ataques de contaminación sigilosa con la más mínima caída en el rendimiento de generalización. Nuestra observación clave es que el ataque introduce regiones agudas locales de alta pérdida de entrenamiento que, cuando se minimizan, aprenden a resistir las perturbaciones y hacen que el ataque sea exitoso. Para romper el ataque de contaminación, nuestra idea clave es mitigar la región de pérdida aguda introducida por el veneno. Con este fin, nuestro método consta de dos componentes: un ruido amigable optimizado, generado para perturbar los ejemplos al máximo sin degradar el rendimiento, y un componente de ruido que varía aleatoriamente. La combinación de estas dos partes crea una defensa muy liviana pero extremadamente efectiva contra los objetivos sin activación más poderosos y los ataques de contaminación de puerta trasera de activación oculta, incluidos Gradient Match, Bullseye Polyhedron y Sleeping Agent. Mostramos que nuestro ruido amigable es transferible a otras arquitecturas y que los ataques adaptativos no pueden romper nuestra defensa debido a su componente de ruido aleatorio.

Enlace en papel: https://proceedings.neurips.cc/paper_files/paper/2022/file/4e81308aa2eb8e2e4eccf122d4827af7-Paper-Conference.pdf

dc2e1b97d4856511b2db0b99faf09b53.png

41、GAMA: Ataques generativos adversarios de escena de múltiples objetos

Abhishek Aich, Calvin-Khang Ta, Akash Gupta, Chengyu Song, Srikanth Krishnamurthy, Salman Asif, Amit Roy-Chowdhury

La mayoría de los métodos de ataque adversarios se centran en escenas con un solo objeto dominante (por ejemplo, imágenes de ImageNet). Por otro lado, las escenas naturales incluyen múltiples objetos dominantes relacionados semánticamente. Por lo tanto, es crucial explorar el diseño de estrategias de ataque que vayan más allá de aprender escenarios de un solo objeto o atacar clasificadores de víctimas de un solo objeto. Dado que las perturbaciones tienen una fuerte naturaleza transitiva y pueden transferirse a modelos desconocidos, este artículo propone un método para ataques adversarios utilizando modelos generativos para escenarios de objetos múltiples. Para representar la relación entre diferentes objetos en la escena de entrada, aprovechamos el modelo de lenguaje visual preentrenado de código abierto CLIP (preentrenamiento de imagen de lenguaje contrastivo) para explotar la semántica codificada en el espacio lingüístico, así como el espacio visual. . Nos referimos a este método de ataque como Generative Adversarial Multi-Object Attack (GAMA). GAMA demuestra la utilidad del modelo CLIP como herramienta de un atacante para entrenar un poderoso generador de perturbaciones para escenas de múltiples objetos. Usando funciones conjuntas de imagen y texto para entrenar al generador, mostramos que GAMA puede producir poderosas perturbaciones transferibles en varias configuraciones de ataque para engañar al clasificador de víctimas. Por ejemplo, GAMA provoca alrededor de un 16 % más de clasificaciones erróneas que los métodos generativos de última generación en la configuración de caja negra, donde la arquitectura del clasificador del atacante y la distribución de datos difieren de las de la víctima. Nuestro código está disponible aquí: https://abhishekaich27.github.io/gama.html

Enlace en papel: https://proceedings.neurips.cc/paper_files/paper/2022/file/efbd571f139d26604e53fe2760e2c073-Paper-Conference.pdf

a71af4a7dcda67a6eff0f3b54e95834.png

42、Identificación, amplificación y medición: un puente hacia la privacidad diferencial gaussiana

Yi Liu, Ke Sun, Bei Jiang, Ling Long Kong

La privacidad diferencial gaussiana (GDP) es una familia de conceptos de privacidad de un parámetro que brindan garantías consistentes para evitar la divulgación de información personal confidencial. Aunque el GDP combinado proporciona una interpretabilidad adicional y límites más estrictos, muchos mecanismos ampliamente utilizados, como el mecanismo de Laplace, brindan intrínsecamente garantías de GDP, pero generalmente no aprovechan este nuevo marco debido a sus garantías de privacidad derivadas de diferentes antecedentes. En este artículo, estudiamos las propiedades asintóticas de las configuraciones de privacidad y desarrollamos un criterio simple para identificar algoritmos con propiedades de GDP. Proponemos un método eficiente para que los algoritmos de GDP reduzcan la posible medida de privacidad óptima μ con márgenes de error arbitrariamente pequeños y cuantificables. Para los algoritmos que no son GDP, proporcionamos un procedimiento de posprocesamiento que amplía las garantías de privacidad existentes para cumplir con la condición GDP. Como aplicaciones, comparamos dos familias de conceptos de privacidad de un parámetro, ϵ-DP y μ-GDP, y mostramos que todos los algoritmos de ϵ-DP también son intrínsecamente GDP. Finalmente, mostramos que la combinación de nuestro procedimiento de medición y el teorema de combinación del PIB es una herramienta poderosa y conveniente para manejar combinaciones en comparación con los teoremas de combinación estándar y avanzados convencionales.

Enlace en papel: https://proceedings.neurips.cc/paper_files/paper/2022/file/4a29e8bc94b4c5d21d58a4fffdff800b-Paper-Conference.pdf

41ae4c13480b069991b26af9fa9de8f8.png

43、Aprender a atacar el aprendizaje federado: un marco de ataque de aprendizaje por refuerzo basado en modelos

Henger Li, Xiaolin Sun, Zizhan Zheng

Proponemos un marco de aprendizaje de refuerzo basado en modelos para ataques no dirigidos contra sistemas de aprendizaje federado (FL). Nuestro marco primero utiliza las actualizaciones del modelo del servidor para aproximar la distribución de los datos agregados del lado del cliente. La distribución aprendida se usa luego para construir un simulador del entorno FL y aprender una política de ataque adaptativa a través del aprendizaje por refuerzo. Incluso cuando los servidores emplean reglas de agregación sólidas, nuestro marco puede aprender automáticamente ataques potentes. Además, derivamos un límite superior en la penalización de rendimiento del atacante debido a estimaciones de distribución inexactas. Los resultados experimentales muestran que el marco de ataque propuesto supera significativamente las técnicas de ataque de envenenamiento existentes en conjuntos de datos del mundo real. Esto demuestra la importancia de desarrollar defensas adaptativas para los sistemas FL.

Enlace del artículo: https://proceedings.neurips.cc/paper_files/paper/2022/file/e2ef0cae667dbe9bfdbcaed1bd91807b-Paper-Conference.pdf

30bbf11ac9fd7fbe7f703d2364b12109.png

44, Conjetura de dosis letal sobre envenenamiento de datos

Wenxiao Wang, Alexander Levine, Soheil Feizi

El envenenamiento de datos ocurre cuando un adversario distorsiona el conjunto de entrenamiento de un algoritmo de aprendizaje automático con fines maliciosos. Este artículo propone una conjetura sobre la base del envenenamiento de datos, llamada conjetura de dosis letal. Esta conjetura muestra que si se necesitan n muestras de entrenamiento limpias para una predicción precisa, en un conjunto de entrenamiento de tamaño N, solo se pueden tolerar $\Theta(N/n)$ muestras envenenadas para garantizar la precisión. En teoría, verificamos esta conjetura en múltiples casos. A través del run-in distributivo, también proporcionamos una visión más general. Deep Partitioned Aggregation (DPA) y su extensión, Finite Aggregation (FA), son enfoques recientes para defensas comprobables contra el envenenamiento de datos al entrenar un voto mayoritario de muchos modelos base de diferentes subconjuntos del conjunto de entrenamiento para hacer predicciones. Esta conjetura implica que tanto DPA como FA son (asintóticamente) óptimos: si tenemos los alumnos más eficientes en datos, pueden convertir esto en una de las defensas más fuertes contra el envenenamiento de datos. Esto describe un enfoque práctico para desarrollar defensas más sólidas al encontrar estudiantes eficientes en datos. Como prueba de concepto, demostramos empíricamente que simplemente capacitando al alumno base con diferentes técnicas de aumento de datos, podemos mejorar la solidez de la certificación de DPA en CIFAR-10 y GTSRB, respectivamente, por un factor de 2 sin pérdida de precisión. Dobles y triples.

Enlace en papel: https://proceedings.neurips.cc/paper_files/paper/2022/file/0badcb4e95306df76a719409155e46e8-Paper-Conference.pdf

191483ebf16592011b8046cdaedd679d.png

45、MORA: mejora de la evaluación de la robustez del conjunto con el ataque de pesaje del modelo

yunrui yu, Xitong Gao, Cheng-Zhong Xu

Los ataques adversarios engañan a las redes neuronales al agregar pequeñas perturbaciones a sus datos de entrada. La defensa de conjuntos es una dirección de investigación prometedora que mejora la robustez contra tales ataques mediante métodos de entrenamiento que minimizan la transferencia de ataques entre submodelos mientras mantienen una alta precisión en las entradas naturales. Sin embargo, encontramos que las recientes estrategias de ataque de adversarios de última generación no pueden evaluar de manera confiable las defensas integradas, lo que sobreestima significativamente su solidez. Este artículo identifica dos factores que contribuyen a este comportamiento. Primero, el conjunto formado por estas defensas tiene una dificultad de ataque evidente contra los métodos existentes basados ​​en gradientes porque los gradientes son ambiguos. En segundo lugar, las defensas de conjuntos diversifican los gradientes de los submodelos, presentando un desafío para derrotar a todos los submodelos simultáneamente, y simplemente sumando sus contribuciones puede negar el objetivo general del ataque; sin embargo, observamos que incluso si la mayoría de los submodelos son correctos, las integraciones aún pueden ser engañadas. Por lo tanto, presentamos MORA, un ataque de reponderación de modelos que guía la síntesis de ejemplos contradictorios al reponderar la importancia de los gradientes de submodelos. MORA encuentra que las defensas integradas recientes exhiben diversos grados de sobreestimación de la resiliencia. En comparación con los recientes ataques de caja blanca de última generación, MORA logra tasas de éxito de ataque más altas en todos los modelos de conjuntos considerados mientras converge órdenes de magnitud más rápido. En particular, la mayoría de las defensas integradas tienen poca o exactamente 0% de robustez para MORA en perturbaciones de $\ell^\infty$ en CIFAR-10 y $0.01$ en CIFAR-100. Abrimos MORA de código fuente y proporcionamos resultados reproducibles y modelos preentrenados, y también proporcionamos una tabla de clasificación de defensas integradas bajo diversas estrategias de ataque.

Enlace en papel: https://proceedings.neurips.cc/paper_files/paper/2022/file/ac895e51849bfc99ae25e054fd4c2eda-Paper-Conference.pdf

67f1b1fea8606659a52698086b114c89.png

46、Puerta trasera Marksman: Ataques de puerta trasera con clase de destino arbitraria

Khoa D Doan, Yingjie Lao, Ping Li

En los últimos años, se ha demostrado que los modelos de aprendizaje automático son vulnerables a los ataques de puerta trasera. Bajo estos ataques, el atacante incrusta una puerta trasera encubierta en el modelo entrenado para permitir que el modelo comprometido funcione normalmente con una entrada limpia, pero con una entrada construida malintencionadamente con un activador, la clasificación errónea del atacante debido al control de las entradas construidas malintencionadamente. Aunque estos ataques existentes son muy efectivos, las capacidades del atacante son limitadas: para una entrada, estos ataques solo pueden hacer que el modelo se desvíe en una sola dirección de una categoría objetivo o predefinida. En cambio, este documento explota un nuevo ataque de puerta trasera con una carga útil más poderosa, llamada Marksman, en la que el atacante puede elegir arbitrariamente qué clase de objetivo clasificará erróneamente el modelo durante la inferencia. Para lograr este objetivo, proponemos representar la función de activación como un modelo generativo condicional de categoría e inyectar la puerta trasera en un marco de optimización restringido, donde la función de activación aprende a generar un patrón de activación óptimo para atacar cualquier categoría objetivo, mientras que esta función generativa. backdoor está incrustado en el modelo entrenado. Sobre la base de la función de generación de disparadores aprendida, durante la inferencia, el atacante puede especificar una clase de objetivo de ataque de puerta trasera arbitraria y, en consecuencia, crear un disparador adecuado para que el modelo se clasifique como esta clase de objetivo. Demostramos experimentalmente que el marco propuesto logra un alto rendimiento de ataque (por ejemplo, una tasa de éxito de ataque del 100 % en varios experimentos) en varios conjuntos de datos de referencia, incluidos MNIST, CIFAR10, GTSRB y TinyImageNet, mientras mantiene el rendimiento en datos limpios. El ataque de puerta trasera Marksman propuesto también puede evadir fácilmente las defensas existentes que fueron diseñadas originalmente para contrarrestar los ataques de puerta trasera de clase de objetivo único. Nuestro trabajo es otro paso importante para abordar el riesgo generalizado de ataques de puerta trasera en entornos del mundo real.

Enlace en papel: https://proceedings.neurips.cc/paper_files/paper/2022/file/fa0126bb7ebad258bf4ffdbbac2dd787-Paper-Conference.pdf

e6343de91320e07ef49315586ae00cbb.png

47, Medición de defensas de reconstrucción de datos en sistemas de inferencia colaborativa

Mengda Yang, Ziang Li, Juan Wang, Hongxin Hu, Ao Ren, Xiaoyang Xu, Wenzhe Yi

El sistema de inferencia colaborativo tiene como objetivo acelerar el proceso de predicción en escenarios de nube perimetral, donde los dispositivos locales y los sistemas en la nube ejecutan conjuntamente modelos complejos de aprendizaje profundo. Sin embargo, estos sistemas de inferencia colaborativos en la nube perimetral son vulnerables a los ataques de reconstrucción emergentes, en los que los proveedores de servicios en la nube malintencionados pueden recuperar datos privados de los usuarios perimetrales. Para defenderse de tales ataques, recientemente se han introducido varias defensas. Desafortunadamente, sabemos muy poco sobre la robustez de estas defensas. En este documento, primero tomamos medidas para medir la solidez de estas defensas de última generación contra los ataques de reconstrucción. Específicamente, mostramos que las características de privacidad latentes aún se conservan en representaciones ofuscadas. Bajo tales observaciones, diseñamos una técnica llamada Destilación de características sensibles (SFD) para recuperar información sensible de representaciones de características protegidas. Nuestros experimentos muestran que SFD puede atravesar los mecanismos de defensa en escenarios de partición de modelos, lo que demuestra la inadecuación de los mecanismos de defensa existentes como técnicas de preservación de la privacidad contra los ataques de reconstrucción. Esperamos que nuestros hallazgos inspiren más trabajo para mejorar la solidez de los mecanismos de defensa contra los ataques de reconstrucción en los sistemas de razonamiento colaborativo.

Enlace en papel: https://proceedings.neurips.cc/paper_files/paper/2022/file/53f1c3ec5df814b5aabe9ae88a29bb49-Paper-Conference.pdf

c66d0fa53f81920ad096c3bf764de23f.png

48、Detección de comentarios abusivos multilingües a escala para idiomas índicos

Vikram Gupta, Sumegh Roychowdhury, Mithun Das, Somnath Banerjee, Punyajoy Saha, Binny Mathew, Hastagiri Prakash Vanchinathan, Animesh Mukherjee

Las plataformas de redes sociales se concibieron originalmente como plazas públicas en línea donde las personas podían reunirse, compartir información y comunicarse entre sí de manera pacífica. Sin embargo, estas plataformas están continuamente plagadas de contenido dañino generado por actos maliciosos, transformándolas gradualmente en “rings de lucha libre” donde los actores maliciosos son libres de abusar de varios grupos marginados. Por lo tanto, la detección precisa y oportuna de contenido abusivo en las plataformas de redes sociales es importante para facilitar interacciones seguras entre los usuarios. Sin embargo, debido al pequeño tamaño de los conjuntos de datos de habla abusiva de la India y la escasa cobertura del idioma, el desarrollo de algoritmos aplicables a los usuarios de las redes sociales de la India (una sexta parte de la población mundial) está severamente limitado. Para facilitar y alentar la investigación en esta importante dirección, por primera vez contribuimos con MACD: un MACD a gran escala (150 000), anotado por humanos, multilingüe (5 idiomas), equilibrado (49 % de contenido abusivo) y diverso (70 000 usuarios) de una popular plataforma de redes sociales - ShareChat. También lanzamos AbuseXLMR, un modelo de detección de contenido abusivo entrenado previamente en grandes volúmenes de comentarios de redes sociales en más de 15 idiomas indios, que supera a XLM-R y MuRIL en múltiples conjuntos de datos de idiomas indios. Además de las anotaciones, también publicamos asignaciones entre comentarios, publicaciones e ID de usuario para modelar sus relaciones. Compartimos líneas de base competitivas monolingües, multilingües y de pocos disparos para usar MACD como un punto de referencia de conjunto de datos para futuras investigaciones.

Enlace en papel: https://proceedings.neurips.cc/paper_files/paper/2022/file/a7c4163b33286261b24c72fd3d1707c9-Paper-Datasets_and_Benchmarks.pdf

b7adc3dc0094fd433a556cc58c992f9a.png

49、NS3: Búsqueda de código semántico neurosimbólico

Shushan Arakelyan, Anna Hakhverdyan, Miltiadis Allamanis, Luis García, Christophe Hauser, Xiang Ren

La búsqueda de código semántico es la tarea de recuperar fragmentos de código en función de la descripción textual de su funcionalidad. El trabajo reciente se ha centrado en las medidas de similitud entre las incrustaciones neuronales que utilizan texto y código. Sin embargo, se cree que los modelos de lenguaje actuales tienen dificultades con oraciones más largas y complejas y con razonamientos de varios pasos. Para superar esta limitación, proponemos complementarla con el diseño de la estructura semántica de la oración de consulta. El diseño semántico se utiliza para descomponer la decisión de inferencia final en una serie de decisiones de nivel inferior. Implementamos esta idea utilizando una arquitectura de red modular neuronal. Comparamos nuestro modelo: NS3 (Búsqueda semántica neurosimbólica) con una serie de líneas de base, incluidos métodos de recuperación de código semántico de última generación, como CodeBERT, CuBERT y GraphCodeBERT, y en dos conjuntos de datos: Code Search Network (CSN) y búsqueda de código y respuesta a preguntas (CoSQA). En estos conjuntos de datos, demostramos que nuestro método puede lograr un mayor rendimiento. También realizamos estudios adicionales para demostrar la efectividad de nuestro diseño modular en el manejo de consultas compuestas.

Enlace en papel: https://proceedings.neurips.cc/paper_files/paper/2022/file/43f5f6c5cb333115914c8448b8506411-Paper-Conference.pdf

a523c3a4dc7836dea5884465e5ca3b66.png

50, Tonto de color natural: hacia el impulso de ataques sin restricciones de caja negra

Shengming Yuan, Qilong Zhang, Lianli Gao, Yaya Cheng, Jingkuan Song

Los ataques de color sin restricciones, que pueden manipular el color semántico de las imágenes, han demostrado su sigilo y éxito para engañar al ojo humano y las redes neuronales profundas. Sin embargo, la investigación actual a menudo sacrifica la flexibilidad en entornos no controlados para garantizar la naturalidad de los ejemplos contradictorios. Por lo tanto, el rendimiento del ataque de caja negra de estos métodos es limitado. Para mejorar la transferibilidad de los ejemplos contradictorios sin comprometer la calidad de la imagen, proponemos un método novedoso de engaño de color natural (NCF) guiado por distribuciones de color reales muestreadas de conjuntos de datos disponibles públicamente y optimizado con nuestra búsqueda de vecindario y restablecimiento inicial. Al realizar extensos experimentos y visualizaciones, demostramos de manera convincente la efectividad de nuestro método propuesto. En particular, los resultados promedio muestran que nuestro NCF puede superar a los métodos de última generación existentes en un 15,0 %~32,9 % en el engaño de modelos comúnmente entrenados y en un 10,0 %~25,3 % en métodos de defensa de evasión. Nuestro código está disponible en https://github.com/VL-Group/Natural-Color-Fool.

Enlace en papel: https://proceedings.neurips.cc/paper_files/paper/2022/file/31d0d59fe946684bb228e9c8e887e176-Paper-Conference.pdf

18488e7073be12e3a14d36b51e59b3a5.png

51, Montón de leyes: aprendizaje del filtrado de datos responsable de la ley y un conjunto de datos legales de código abierto de 256 GB

Peter Henderson, Mark Krass, Lucia Zheng, Neel Guha, Christopher D Manning, Dan Jurafsky, Daniel Ho

El surgimiento de grandes modelos de lenguaje ha generado preocupaciones de que su uso de prejuicios, obscenidades, derechos de autor e información privada en la capacitación previa puede causar un daño significativo. Los enfoques éticos emergentes intentan filtrar el material previo a la capacitación, pero estos enfoques son ad hoc y no tienen en cuenta el contexto. Proponemos un enfoque de filtrado basado en leyes que aborda directamente la compensación del material del filtro. En primer lugar, recopilamos y ponemos a disposición el Depósito legal, un conjunto de datos de aproximadamente 256 GB (y en aumento) de datos legales y administrativos de código abierto en inglés, como decisiones judiciales, contratos, reglamentos administrativos y registros legislativos. La capacitación previa en bases de datos legales ayuda a resolver el problema de mejorar las instituciones judiciales. En segundo lugar, destilamos las normas legales promulgadas por los gobiernos para restringir el contenido tóxico o privado en enfoques de investigación viables y discutimos cómo nuestro conjunto de datos refleja estas normas. En tercer lugar, mostramos cómo los corpus legales permiten a los investigadores aprender estas reglas de filtrado directamente de los datos y brindan una nueva y emocionante dirección de investigación para el procesamiento de modelos.

Enlace en papel: https://proceedings.neurips.cc/paper_files/paper/2022/file/bc218a0c656e49d4b086975a9c785f47-Paper-Datasets_and_Benchmarks.pdf

262f6885da40daf28fbf5dd51ff92624.png

52、Ataques adversarios prácticos en modelos de pronóstico de tráfico espaciotemporal

Fan LIU, Hao Liu, Wenzhao Jiang

Los modelos de predicción de tráfico basados ​​en aprendizaje automático explotan autocorrelaciones espaciotemporales complejas para proporcionar predicciones precisas de los estados del tráfico urbano. Sin embargo, los métodos existentes asumen la existencia de un entorno de pronóstico confiable e imparcial, lo que no siempre es el caso en la realidad. En este trabajo, investigamos la vulnerabilidad de los modelos de predicción de tráfico espaciotemporal y proponemos un marco práctico para los ataques espaciotemporales adversarios. Específicamente, proponemos un método iterativo de prominencia de nodos guiado por gradiente para identificar un conjunto de nodos víctimas que varía en el tiempo, en lugar de atacar todas las fuentes de datos geográficamente distribuidas simultáneamente. Además, diseñamos un esquema basado en el descenso de gradiente espaciotemporal para generar estados de tráfico adversarios reales bajo restricciones de perturbación. Mientras tanto, teóricamente demostramos el peor límite de rendimiento para los ataques de predicción de tráfico adversarios. Extensos experimentos en dos conjuntos de datos del mundo real demuestran que el marco de trabajo de dos pasos propuesto puede lograr una degradación del rendimiento de hasta un 67,8 % en varios modelos avanzados de predicción espaciotemporal. En particular, también mostramos que el entrenamiento adversario con nuestro ataque propuesto puede mejorar significativamente la solidez de los modelos de predicción de tráfico espacio-temporal.

Enlace en papel: https://proceedings.neurips.cc/paper_files/paper/2022/file/79081c95482707d2db390542614e29cd-Paper-Conference.pdf

accc238875c146c477ae787d3561b50b.png

53、Distribuciones de preactivación exponen neuronas de puerta trasera

Runkai Zheng, Rongjun Tang, Jianze Li, Li Liu

Las redes neuronales convolucionales (CNN) se pueden manipular para realizar comportamientos específicos al encontrar patrones de activación específicos sin afectar el rendimiento de las muestras normales, lo que se conoce como ataque de puerta trasera. Los ataques de puerta trasera generalmente se implementan inyectando una pequeña cantidad de muestras contaminadas en el conjunto de entrenamiento, de esta manera, la víctima entrena un modelo que incorpora la puerta trasera especificada. En este trabajo, demostramos que las neuronas de puerta trasera están expuestas a través de sus distribuciones de preactivación, donde las poblaciones de datos benignos y datos contaminados muestran momentos significativamente diferentes. Se demostró que esta propiedad es invariable al ataque y nos permitió apuntar de manera eficiente a las neuronas de puerta trasera. Sobre esta base, hacemos varias suposiciones apropiadas sobre la distribución de las activaciones de las neuronas y proponemos dos métodos basados ​​en (1) la entropía diferencial de las neuronas y (2) distribuciones de muestras benignas y distribuciones hipotéticas basadas en estadísticas de contaminación Una estrategia de detección de neuronas de puerta trasera basada en la divergencia Kullback-Leibler. Los resultados experimentales muestran que nuestra estrategia de defensa propuesta es eficiente y efectiva contra varios ataques de puerta trasera.

Enlace del artículo: https://proceedings.neurips.cc/paper_files/paper/2022/file/76917808731dae9e6d62c2a7a6afb542-Paper-Conference.pdf

d6aae4fb267a31e656f4572ff3547e83.png

54、Perturbaciones adversarias preentrenadas

Ban Yuanhao, Yinpeng Dong

En los últimos años, la formación previa autosupervisada ha recibido una atención cada vez mayor debido a su excelente rendimiento en numerosas tareas posteriores después del ajuste fino. Sin embargo, es bien sabido que los modelos de aprendizaje profundo carecen de solidez frente a los ejemplos adversarios, lo que puede plantear problemas de seguridad para los modelos previamente entrenados, aunque se ha realizado relativamente poca investigación en esta área. En este artículo, exploramos la solidez de los modelos preentrenados mediante la introducción de perturbaciones antagónicas preentrenadas (PAP), que son perturbaciones genéricas formuladas para atacar modelos ajustados sin ningún conocimiento sobre las tareas posteriores. Con este fin, proponemos un método L4A (Low-Level Neuron Activation Boosting Attack) para generar PAP efectivos al impulsar las activaciones de neuronas de bajo nivel de modelos pre-entrenados. Equipado con una estrategia mejorada de aumento de ruido, L4A puede generar de manera eficiente PAP más transferibles para atacar modelos ajustados. Extensos experimentos en modelos de visión preentrenados típicos y diez tareas posteriores muestran que nuestro método mejora la tasa de éxito de los ataques en comparación con los métodos más avanzados.

Enlace en papel: https://proceedings.neurips.cc/paper_files/paper/2022/file/084727e8abf90a8365b940036329cb6f-Paper-Conference.pdf

ef95a6d52200085dda5c1cab588e1bdc.png

55、Percepción multipartita privada para navegación

Hui Lu, Mia Chiquier, Carl Vondrick

Proponemos un marco para navegar en entornos desordenados al vincular varias cámaras y preservar la privacidad. Las oclusiones y los obstáculos en entornos grandes suelen ser situaciones desafiantes para los agentes de navegación porque el entorno no es completamente visible desde la perspectiva de una sola cámara. Dadas las múltiples vistas de cámara del entorno, nuestro método aprende a generar representaciones de escena de múltiples vistas que solo se pueden usar para la navegación y probablemente evitan que cualquier parte extrapole información desde fuera de la tarea de salida. En un nuevo conjunto de datos de navegación que publicaremos, los experimentos muestran que las representaciones privadas de múltiples partes permiten la navegación a través de escenas y obstáculos complejos al tiempo que preservan la privacidad. Nuestro método es escalable a cualquier número de vistas de cámara. Creemos que desarrollar representaciones visuales que preserven la privacidad es cada vez más importante para muchas aplicaciones, como la navegación.

Enlace en papel: https://proceedings.neurips.cc/paper_files/paper/2022/file/15ddb1773510075ef44981cdb204330b-Paper-Conference.pdf

f4149ab186b34e995a21157800a096fe.png

56、Generación de conjuntos privados con información discriminatoria

Dingfan Chen, Raouf Kerkouche, Mario Fritz

Las técnicas de generación de datos privados diferencialmente han surgido como una solución prometedora para los desafíos de privacidad de datos. Permite compartir datos con estrictas garantías de privacidad, que son esenciales para el progreso científico en campos sensibles. Desafortunadamente, los modelos generativos patentados existentes luchan con la utilidad de las muestras sintéticas debido a las limitaciones en la complejidad inherente del modelado de distribuciones de alta dimensión. A diferencia de los métodos existentes que apuntan a ajustarse a la distribución completa de datos, optimizamos directamente un pequeño conjunto de muestras que representan la distribución, lo que generalmente es una tarea más fácil y más adecuada para la capacitación privada. Además, aprovechamos la información discriminatoria de las tareas posteriores para simplificar aún más la capacitación. Nuestro trabajo proporciona una perspectiva alternativa sobre la generación de datos de alta dimensión diferencialmente privados e introduce un método simple pero efectivo que mejora en gran medida la utilidad de muestra de los métodos existentes.

Enlace en papel: https://proceedings.neurips.cc/paper_files/paper/2022/file/5e1a87dbb7e954b8d9d6c91f6db771eb-Paper-Conference.pdf

5b7ac02881a3063cc28316d248926979.png

57、Datos sintéticos privados para aprendizaje multitarea y consultas marginales

Giuseppe Vietri, Cedric Archambeau, Sergul Aydore, William Brown, Michael Kearns, Aaron Roth, Ankit Siva, Shuai Tang, Steven Z. Wu

Presentamos un algoritmo diferencialmente privado que genera simultáneamente datos sintéticos para múltiples tareas: consulta marginal y aprendizaje automático (ML) multitarea. Una innovación clave en nuestro algoritmo es la capacidad de manejar directamente características numéricas, a diferencia de muchos métodos anteriores relacionados que primero requieren convertir características numéricas en características categóricas de {alta cardinalidad} a través de una estrategia de agrupamiento. Una mayor precisión requiere una mayor granularidad de binning, pero esto afecta negativamente a la escalabilidad. La eliminación de la necesidad de binning nos permite generar datos sintéticos que conservan una amplia gama de consultas estadísticas, como consultas de umbral lineal marginales y condicionales de clase sobre características numéricas. Mantener este último significa que la cantidad de puntos para cada etiqueta de clase es aproximadamente la misma en un medio espacio, una propiedad deseada para entrenar clasificadores lineales en una configuración multitarea. Nuestro algoritmo también nos permite generar datos sintéticos de alta calidad para consultas marginales híbridas que combinan características categóricas y numéricas. Nuestro método se ejecuta consistentemente de 2 a 5 veces más rápido que las mejores técnicas comparables y proporciona ganancias de precisión significativas en tareas de predicción lineal y consultas marginales en conjuntos de datos de tipo mixto.

Enlace en papel: https://proceedings.neurips.cc/paper_files/paper/2022/file/7428310c0f97f1c6bb2ef1be99c1ec2a-Paper-Conference.pdf

676e1d4433ee739f0c712ee64600c162.png

58 、 Algoritmos privados y de comunicación eficiente para la estimación de entropía

Gecia Bravo-Hermsdorff, Róbert Busa-Fekete, Mohammad Ghavamzadeh, Andrés Muñoz Medina, Umar Syed

La estimación estadística moderna a menudo se realiza en un entorno distribuido, donde cada muestra pertenece a un solo usuario, que comparte sus datos con un servidor central. Los usuarios generalmente se preocupan por preservar la privacidad de sus muestras y minimizar la cantidad de datos que tienen que transmitir al servidor. Proporcionamos algoritmos privados mejorados y eficientes en comunicación para estimar varias medidas comunes de entropía de distribución. Todos nuestros algoritmos tienen un costo de comunicación constante y satisfacen la privacidad diferencial local. Para una distribución conjunta de muchas variables, cuyo gráfico de independencia condicional es un árbol, describimos un algoritmo para estimar la entropía de Shannon con un tamaño de muestra que es lineal en el número de variables, y cuya complejidad de muestra es cuadrática en comparación con trabajos anteriores de. También describimos un algoritmo para estimar la entropía de Gini cuya complejidad muestral no depende del tamaño de soporte de la distribución, y que puede implementarse utilizando una única ronda de comunicación concurrente entre el usuario y el servidor, mientras que el mejor algoritmo conocido anteriormente tiene una alta los costos de comunicación y requiere un servidor para facilitar la interacción entre los usuarios. Finalmente, describimos un algoritmo para estimar la entropía de colisión que coincide con el espacio y la complejidad de la muestra de los algoritmos más conocidos, pero lo generaliza a entornos privados y de comunicación eficiente.

Enlace en papel: https://proceedings.neurips.cc/paper_files/paper/2022/file/62e5721247075dd097023d077d8e22f7-Paper-Conference.pdf

577f142c09101ae7ce14e4031258f39e.png

59、Los clasificadores de sondeo no son confiables para la eliminación y detección de conceptos

Abhinav Kumar, Chenhao Tan, Amit Sharma

Se ha encontrado que los modelos de redes neuronales entrenados en datos de texto codifican lenguaje pobre o conceptos sensibles en sus representaciones. Eliminar conceptos no es trivial debido a las complejas relaciones entre conceptos, entrada de texto y representaciones aprendidas. Investigaciones recientes proponen enfoques post-hoc y contradictorios para eliminar estos conceptos no deseados de la representación de un modelo. A través de extensos análisis teóricos y empíricos, mostramos que estos enfoques pueden ser contraproducentes: no logran eliminar por completo dichos conceptos y, en el peor de los casos, pueden destruir todas las características relevantes para la tarea. La razón es que estos métodos se basan en un clasificador de sondeo como representante de los conceptos. Incluso aprendiendo un clasificador de detección en las condiciones más favorables donde las características relevantes de los conceptos en el espacio de representación pueden proporcionar un 100 % de precisión, mostramos que es probable que los clasificadores de detección utilicen características que no son conceptos, por lo que los métodos post hoc o contradictorios no podrán para eliminar correctamente el concepto. Estos efectos teóricos se confirman experimentalmente en aplicaciones sensibles que tienen como objetivo la eliminación de conceptos como la equidad. Recomendamos usar estos métodos con precaución y crear una métrica falsa para medir la calidad del clasificador final.

Enlace en papel: https://proceedings.neurips.cc/paper_files/paper/2022/file/725f5e8036cc08adeba4a7c3bcbc6f2c-Paper-Conference.pdf

d332a0290b7678bca9c6343f487b4b9c.png

60、Defensa demostrable contra las políticas de puerta trasera en el aprendizaje por refuerzo

Shubham Bharti, Xuezhou Zhang, Adish Singla, Jerry Zhu

Proponemos un mecanismo de defensa comprobable contra las estrategias de puerta trasera en el aprendizaje por refuerzo, bajo el supuesto de activación del subespacio. Una táctica de puerta trasera es una amenaza a la seguridad en la que un adversario publica una táctica que aparentemente se comporta bien y que en realidad permite ocultar el disparador. Durante el despliegue, un adversario puede modificar el estado observado de una manera específica para desencadenar acciones no deseadas y dañar al agente. Suponemos que el agente no tiene los recursos para volver a entrenar una buena política. En cambio, nuestro mecanismo de defensa desinfecta la estrategia de puerta trasera al proyectar el estado observado desde un "subespacio seguro" estimado a partir de una pequeña cantidad de interacciones con el entorno limpio (sin activación). En presencia de disparadores, nuestra estrategia de sanitización puede lograr ε casi óptima, siempre que el número de interacciones limpias sea O(D(1-γ)4ε2), donde γ es el factor de descuento y D es la dimensión del espacio de estado . Empíricamente, mostramos que nuestra defensa de desinfección funciona bien en dos entornos de juego de Atari.

Enlace en papel: https://proceedings.neurips.cc/paper_files/paper/2022/file/5e67e6a814526079ad8505bf6d926fb6-Paper-Conference.pdf

ff13bd605f88712997007c9f778163d7.png

61, ¡Cuestiones de sabiduría pública! Coatención hiperbólica de Fourier consciente del discurso para la clasificación de textos sociales

Karish Grover, SM Phaneendra Angara, MD Shad Akhtar, Tanmoy Chakraborty

Las redes sociales se han convertido en el punto de apoyo de todas las formas de comunicación. La clasificación de textos sociales, como noticias falsas, rumores, sátiras, etc., ha llamado mucho la atención. Las señales de superficie expresadas por el propio texto social pueden no ser suficientes para estas tareas; por lo tanto, los enfoques recientes intentan incorporar otras señales intrínsecas, como el comportamiento del usuario y la estructura gráfica subyacente. A menudo, la sabiduría pública expresada a través de comentarios/respuestas a textos sociales actúa como un sustituto de las perspectivas de colaboración colectiva, posiblemente brindándonos señales complementarias. Los enfoques de vanguardia para la clasificación de textos sociales a menudo ignoran esta rica señal jerárquica. Aquí, proponemos Hyphen, una red de atención conjunta hiperesférica consciente del discurso. Hyphen es una fusión del aprendizaje de representación gráfica hiperesférica y un novedoso mecanismo de atención conjunta de Fourier, con el objetivo de generalizar las tareas de clasificación de textos sociales mediante la incorporación del discurso público. Analizamos expresiones públicas en gráficos de representación de significado abstracto (AMR) y utilizamos una poderosa representación geométrica hiperesférica para modelar gráficos con estructuras jerárquicas. Finalmente, lo equipamos con un novedoso mecanismo de atención conjunta de Fourier para capturar la correlación entre las publicaciones de origen y el discurso público. Para cuatro tareas diferentes de clasificación de texto social (es decir, detección de noticias falsas, incitación al odio, rumores y sarcasmo), extensos experimentos demuestran que Hyphen generaliza bien y logra resultados de última generación en diez conjuntos de datos de referencia. También utilizamos conjuntos de datos de anotación y verificación de hechos basados ​​en oraciones para evaluar cómo Hyphen produce explicaciones de evidencia similares a las predicciones finales.

Enlace del artículo: https://proceedings.neurips.cc/paper_files/paper/2022/file/3d57795f0e263aa69577f1bbceade46b-Paper-Conference.pdf

915dae52a23fd1f8cd22bb6bb9676ce9.png

62、QUARK: Generación de texto controlable con desaprendizaje reforzado

Ximing Lu, Sean Welleck, Jack Hessel, Liwei Jiang, Lianhui Qin, Peter West, Prithviraj Ammanabrolu, Yejin Choi

Los modelos de lenguaje a gran escala a menudo aprenden comportamientos que son inconsistentes con las expectativas del usuario. El texto generado puede contener lenguaje ofensivo o tóxico, contener muchas repeticiones o tener un sentimiento diferente al que espera el usuario. Consideramos desentrañar estas inconsistencias afinando las señales de mal comportamiento. Presentamos el algoritmo Quantized Reward Konditioning (Quark), un algoritmo para optimizar las funciones de recompensa que cuantifica las propiedades (no) deseadas sin desviarse demasiado del modelo original. Quark alterna entre los siguientes tres pasos: (i) recolectar muestras utilizando el modelo de lenguaje actual, (ii) cuantificarlas de acuerdo con la recompensa, cada intervalo de cuantificación está determinado por una ficha de recompensa colocada frente al Reconocimiento de entrada del modelo de lenguaje, (iii) Condicione la pérdida del modelo de lenguaje estándar en muestras de cada intervalo de cuantificación, mientras se mantiene cerca del modelo de lenguaje original a través de la penalización de divergencia KL. Al condicionar tokens de alta recompensa en el momento de la generación, el texto generado por el modelo exhibirá menos propiedades indeseables. En términos de toxicidad, sentimiento negativo y repetitividad, nuestros experimentos muestran que Quark supera las líneas de base sólidas y los métodos de aprendizaje por refuerzo de última generación, al tiempo que se basa únicamente en primitivas de modelado de lenguaje estándar.

Enlace en papel: https://proceedings.neurips.cc/paper_files/paper/2022/file/b125999bde7e80910cbdbd323087df8f-Paper-Conference.pdf

eb05d81c01b7d2ffaaa9a8b811ee9c1c.png

63、Agregación de Normalización Aleatoria para Defensa Adversarial

Minjing Dong, Xinghao Chen, Yunhe Wang, Chang Xu

Las vulnerabilidades de las redes neuronales profundas se han encontrado ampliamente en varios modelos y tareas, donde incluso pequeñas perturbaciones en la entrada pueden conducir a predicciones incorrectas. Estas entradas perturbadas se denominan ejemplos contradictorios, y una propiedad interesante de ellos es la transferibilidad contradictoria, la capacidad de los ejemplos contradictorios para engañar a otros modelos. Tradicionalmente, dicha transferibilidad siempre se ha considerado como una amenaza importante para la defensa contra ataques de adversarios; sin embargo, argumentamos que explotar la transferibilidad de adversarios desde una nueva perspectiva puede mejorar significativamente la solidez de las redes. En este trabajo, primero discutimos el impacto de las diferentes capas de normalización populares en la transferibilidad contradictoria, y luego brindamos evidencia empírica y análisis teórico para aclarar la relación entre los tipos de normalización y la transferibilidad. Con base en nuestro análisis teórico, proponemos un módulo simple pero efectivo llamado Agregación de normalización aleatoria (RNA), que reemplaza la capa de normalización por lotes en la red y agrega diferentes tipos de normalización de selección para formar un gran espacio aleatorio. Específicamente, se selecciona aleatoriamente una ruta durante cada inferencia para que la red en sí se pueda ver como un conjunto de varios modelos diferentes. Dado que todo el espacio aleatorio está diseñado para tener una baja transferibilidad adversaria, es difícil llevar a cabo ataques efectivos incluso si los parámetros de la red son accesibles. Llevamos a cabo extensos experimentos en varios modelos y conjuntos de datos y demostramos la gran superioridad del algoritmo propuesto. El código de PyTorch está disponible en https://github.com/UniSerj/Random-Norm-Aggregation y el código de MindSpore está disponible en https://gitee.com/mindspore/models/tree/master/research/cv/RNA.

Enlace en papel: https://proceedings.neurips.cc/paper_files/paper/2022/file/da3d4d2e9b37f78ec3e7d0428c9b819a-Paper-Conference.pdf

98ff8a9702d387f261494a1bbdbd108e.png

64、Repensar y mejorar la robustez de las redes neuronales convolucionales: un enfoque basado en el valor de Shapley en el dominio de la frecuencia

Yiting Chen, Qibing Ren, Junchi Yan

La presencia de ejemplos contradictorios plantea preocupaciones sobre la solidez de las redes neuronales convolucionales (CNN), donde una hipótesis popular es sobre el fenómeno del sesgo de frecuencia: las CNN dependen más de los componentes de alta frecuencia (HFC) que de los humanos para la clasificación, lo que conduce a la vulnerabilidad de la CNN. Sin embargo, la mayoría de los trabajos anteriores seleccionan manualmente y segmentan aproximadamente el espectro de la imagen y realizan un análisis cualitativo. En este trabajo, presentamos el valor de Shapley, una métrica cooperativa de teoría de juegos, en el dominio de la frecuencia y proponemos métodos para cuantificar el impacto positivo (negativo) de cada componente de frecuencia en los datos de las CNN. Con base en los valores de Shapley, cuantificamos el impacto de manera detallada y demostramos diferencias de instancia interesantes. Estadísticamente, estudiamos el entrenamiento adversarial (AT) y los ataques adversariales en el dominio de la frecuencia. Las observaciones motivan nuestro análisis en profundidad y conducen a múltiples hipótesis nuevas, que incluyen: i) la razón de la solidez contradictoria del modelo AT; ii) el problema de equidad de AT entre diferentes clases en el mismo conjunto de datos; iii)) desviación del ataque para diferentes componentes de frecuencia. Finalmente, proponemos una técnica de aumento de datos guiada por valores de Shapley para mejorar la solidez de las CNN. Los resultados experimentales en los puntos de referencia de clasificación de imágenes demuestran su eficacia.

Enlace del artículo: https://proceedings.neurips.cc/paper_files/paper/2022/file/022abe84083d235f7572ca5cba24c51c-Paper-Conference.pdf

3199fc59fedc239de02ddaa2784bdef0.png

65, Replanteamiento de la ingeniería inversa de los activadores de troyanos

Zhenting Wang, Kai Mei, Hailun Ding, Juan Zhai, Shiqing Ma

Las redes neuronales profundas son vulnerables a los ataques de caballos de Troya (o puertas traseras). Los métodos de ingeniería inversa pueden reconstruir los disparadores y así identificar los modelos afectados. Los métodos de ingeniería inversa existentes solo consideran las restricciones del espacio de entrada, como el tamaño del flip-flop en el espacio de entrada. En particular, asumen que los disparadores son patrones estáticos en el espacio de entrada y no detectan modelos con disparadores de espacio de características, como transformaciones de estilo de imagen. Observamos que los troyanos tanto en el espacio de entrada como en el espacio de funciones están relacionados con el hiperplano del espacio de funciones. Con base en esta observación, diseñamos un nuevo método de ingeniería inversa para aplicar ingeniería inversa a los desencadenantes de troyanos utilizando restricciones de espacio de características. Los resultados de cuatro conjuntos de datos y siete ataques diferentes muestran que nuestra solución es eficaz contra los caballos de Troya tanto en el espacio de entrada como en el espacio de características. Supera los métodos de ingeniería inversa existentes y otros tipos de defensas en la detección y mitigación de modelos troyanos. En promedio, nuestro método logra una precisión de detección del 93%. Para la mitigación de troyanos, nuestro método puede reducir la tasa de éxito del ataque a solo un 0,26 %, mientras que la tasa de precisión benigna casi no cambia. Nuestro código se puede encontrar en https://github.com/RU-System-Software-and-Security/FeatureRE.

Enlace en papel: https://proceedings.neurips.cc/paper_files/paper/2022/file/3f9bf45ea04c98ad7cb857f951f499e2-Paper-Conference.pdf

2ac38ac4e422cd225e2ad493230a94a6.png

66、Revisión de ataques inyectivos en sistemas de recomendación

Haoyang LI, Shimin DI, Lei Chen

Estudios recientes han demostrado que los sistemas de recomendación (RecSys) son vulnerables a los ataques de inyección. Los atacantes pueden inyectar a usuarios falsos con comportamientos bien diseñados en la plataforma abierta, y el sistema de recomendación recomendará elementos de destino a más usuarios reales para obtener ganancias. En este documento, primero revisamos los atacantes existentes y revelamos que sufren de dificultad agnóstica y diversidad insuficiente. Los atacantes existentes han reducido la eficacia de sus ataques centrándose en usuarios difíciles de atacar con poca propensión a los elementos específicos. Además, no pueden influir en el RecSys de destino para recomendar elementos de destino a usuarios reales de una manera diversa a través del comportamiento de usuario falso generado por la gran comunidad dominante. Para aliviar estos dos problemas, proponemos un atacante consciente de la dificultad y la diversidad, a saber, DADA. Diseñamos objetivos conscientes de la dificultad y la diversidad para que los usuarios vulnerables de diferentes comunidades puedan contribuir con más peso al optimizar al atacante. Al combinar estos dos objetivos, el atacante propuesto DADA puede enfocarse en atacar a los usuarios vulnerables y al mismo tiempo afectar a una gama más amplia de usuarios reales, mejorando así la efectividad del ataque. Extensos experimentos en tres conjuntos de datos reales demuestran la efectividad de nuestro atacante propuesto.

Enlace en papel: https://proceedings.neurips.cc/paper_files/paper/2022/file/c1bb0e3b062f0a443f2cc8a4ec4bb30d-Paper-Conference.pdf

b953931adad4b8690858717f9fd136de.png

67, Los adversarios robustos a nivel de funciones son herramientas de interpretación

Stephen Casper, Max Nadeau, Dylan Hadfield-Menell, Gabriel Kreiman

La literatura sobre ataques adversarios en visión por computadora generalmente se enfoca en perturbaciones a nivel de píxel. Estas perturbaciones son a menudo difíciles de explicar. El trabajo reciente mediante la manipulación de las representaciones latentes de los generadores de imágenes para crear perturbaciones adversarias "a nivel de características" nos brinda la oportunidad de explorar ataques adversarios perceptibles y explicables. Hacemos tres aportes. Primero, observamos que los ataques a nivel de características brindan clases útiles de entrada para estudiar representaciones en modelos. En segundo lugar, mostramos que estos adversarios son excepcionalmente versátiles y muy poderosos. Demostramos que se pueden utilizar para generar ataques dirigidos, genéricos, camuflados, realistas y de caja negra a escala de ImageNet. En tercer lugar, mostramos cómo estas imágenes antagónicas se pueden utilizar como herramientas prácticas de interpretación para identificar vulnerabilidades en las redes. Usamos estos adversarios para predecir asociaciones falsas entre características y clases, y luego probamos estas predicciones al diseñar un ataque de "copiar/pegar" que conduce a una clasificación errónea dirigida. Nuestros resultados demuestran que los ataques a nivel de características son un enfoque prometedor para la investigación interpretativa en profundidad. Apoyan el diseño de herramientas para comprender mejor lo que los modelos han aprendido y diagnosticar asociaciones de características frágiles. El código está disponible en https://github.com/thestephencasper/featureleveladv.

Enlace en papel: https://proceedings.neurips.cc/paper_files/paper/2022/file/d616a353c711f11c722e3f28d2d9e956-Paper-Conference.pdf

3fc2c0d883e1ae7f625db559d14eeba1.png

68、SALSA: Criptografía reticular atacando con transformadores

Emily Wenger, Mingjie Chen, Francois Charton, Kristin E. Lauter

Los sistemas de cifrado de clave pública implementados actualmente se enfrentarán a ataques de computadoras cuánticas a gran escala. Como resultado, los sistemas de encriptación "resistentes a la cuántica" tienen una gran demanda, y los sistemas de encriptación basados ​​en entramados basados ​​en un problema difícil conocido como "error de aprendizaje" han surgido como fuertes contendientes para la estandarización. En este trabajo, entrenamos a Transformers para realizar aritmética modular y combinar modelos semientrenados y técnicas de criptoanálisis estadístico para proponer SALSA: un ataque de aprendizaje automático basado en esquemas de cifrado LWE. SALSA puede recuperar por completo secretos binarios dispersos para instancias LWE de tamaño pequeño a mediano, extendiéndose potencialmente a ataques en sistemas prácticos de encriptación LWE.

Enlace en papel: https://proceedings.neurips.cc/paper_files/paper/2022/file/e28b3369186459f57c94a9ec9137fac9-Paper-Conference.pdf

2ff353e1dba55201d2df9a322b772f37.png

69 、 Agente durmiente: puertas traseras escalables con gatillo oculto para redes neuronales entrenadas desde cero

Hossein Souri, Liam Fowl, Rama Chellappa, Micah Goldblum, Tom Goldstein

A medida que la selección de datos de aprendizaje automático se automatiza cada vez más, la manipulación de conjuntos de datos se convierte en una amenaza creciente. Los atacantes de puerta trasera manipulan los datos de entrenamiento para incrustar vulnerabilidades en los modelos entrenados en esos datos. Luego, esta vulnerabilidad se activa en el momento de la inferencia colocando un "disparador" en la entrada del modelo. Un ataque típico de puerta trasera inserta disparadores directamente en los datos de entrenamiento, aunque la presencia de dicho ataque puede ser visible en la inspección. Por el contrario, los ataques de puerta trasera con disparador oculto permiten el envenenamiento sin colocar disparadores directamente en los datos de entrenamiento. Sin embargo, este ataque desencadenante oculto no puede envenenar una red neuronal entrenada desde cero. Desarrollamos un nuevo ataque desencadenante oculto, Sleeper Agent, que emplea la comparación de gradientes, la selección de datos y el reentrenamiento del modelo objetivo en su fabricación. Sleeper Agent es el primer ataque de puerta trasera de activación oculta efectivo en redes neuronales entrenadas desde cero. Demostramos su efectividad en ImageNet y configuraciones de caja negra. Nuestro código de implementación se puede encontrar en: https://github.com/hsouri/Sleeper-Agent.

Enlace en papel: https://proceedings.neurips.cc/paper_files/paper/2022/file/79eec295a3cd5785e18c61383e7c996b-Paper-Conference.pdf

5f0aeae2a09f25af5f4df927057e75f3.png

70、El efecto cebolla de la privacidad: la memorización es relativa

Nicholas Carlini, Matthew Jagielski, Chiyuan Zhang, Nicolas Papernot, Andreas Terzis, Florian Tramer

Se ha demostrado que los modelos de aprendizaje automático filtran datos privados cuando se entrenan en conjuntos de datos privados. Estudios recientes han encontrado que los puntos de datos promedio rara vez se filtran, por lo general, las muestras atípicas se ven afectadas por la memoria y las fugas. Demostramos y analizamos el efecto cebolla de la memoria: la eliminación de la "capa" de valores atípicos más vulnerables a los ataques de privacidad expone una nueva capa en la que los puntos previamente seguros están sujetos al mismo ataque. Realizamos varios experimentos que eran consistentes con esta hipótesis. Por ejemplo, mostramos que para los ataques de inferencia de membresía, cuando se elimina la capa más vulnerable, otra capa debajo se vuelve vulnerable. La existencia de este efecto tiene varias consecuencias. Por ejemplo, muestra que es poco probable que las propuestas a prueba de memoria sin un entrenamiento estricto en la preservación de la privacidad sean efectivas. Además, muestra que las técnicas de mejora de la privacidad, como el aprendizaje de cancelación automática, pueden comprometer la privacidad de otros usuarios.

Enlace en papel: https://proceedings.neurips.cc/paper_files/paper/2022/file/564b5f8289ba846ebc498417e834c253-Paper-Conference.pdf

4ad4d85f90728a3c2d7030e95a1be256.png

71、Hacia un entrenamiento robusto y eficiente contra la unión de modelos de amenazas $\ell_p$

Gaurang Sriramanan, Maharshi Gor, Soheil Feizi

La extrema vulnerabilidad de las redes neuronales profundas a los ataques de perturbación cuidadosamente elaborados, conocidos como ataques adversarios, ha llevado al desarrollo de varias técnicas de entrenamiento para producir modelos robustos. Si bien el enfoque principal de los enfoques existentes es abordar el desempeño en el peor de los casos bajo un solo modelo de amenaza, es fundamental garantizar que los sistemas críticos para la seguridad sean sólidos frente a múltiples modelos de amenazas. Los métodos existentes para el desempeño en el peor de los casos de estos modelos de amenazas ($\ell_{\infty}$, $\ell_2$, $\ell_1$ union) aprovechan los métodos de entrenamiento adversario que requieren ataques de varios pasos, que en la práctica son computacionalmente costosos, o confíe en el ajuste fino de modelos previamente entrenados que son robustos para un solo modelo de amenaza. En este trabajo, mostramos que al elegir cuidadosamente la función objetivo para el entrenamiento de robustez, se puede lograr un rendimiento similar o mejorado en el peor de los casos utilizando solo un ataque de un solo paso, de modo que los recursos computacionales requeridos para el entrenamiento se reducen significativamente. Además, el trabajo anterior ha demostrado que el entrenamiento adversario contra los modelos de amenazas $\ell_1$ es relativamente difícil, hasta el punto de que incluso los modelos entrenados adversarialmente de varios pasos son vulnerables al enmascaramiento de gradiente. Sin embargo, cuando se aplica exclusivamente al modelo de amenazas $\ell_1$, el método propuesto nos permite obtener el primer modelo robusto $\ell_1$ con un solo adversario de un solo paso. Finalmente, para demostrar las ventajas de nuestro enfoque, explotamos un conjunto moderno de evaluaciones de ataques para estimar mejor el desempeño en el peor de los casos bajo la unión de modelos de amenazas considerados.

Enlace en papel: https://proceedings.neurips.cc/paper_files/paper/2022/file/a627b9468c319c13a70b7c2fb8df65a3-Paper-Conference.pdf

2e3a1564916040541467b6705e8ef9f9.png

72、Hacia un ataque ligero de caja negra contra redes neuronales profundas

Chenghao Sun, Yonggang Zhang, Wan Chaoqun, Qizhou Wang, Ya Li, Tongliang Liu, Bo Han, Xinmei Tian

Los ataques de caja negra pueden generar ejemplos contradictorios que no tienen acceso a los parámetros del modelo de destino, lo que exacerba en gran medida la amenaza para las redes neuronales profundas (DNN) implementadas. Sin embargo, estudios anteriores han demostrado que los ataques de caja negra no pueden engañar al modelo de destino cuando los datos de entrenamiento y los resultados son inaccesibles. En este trabajo, argumentamos que los ataques de caja negra pueden constituir ataques prácticos en situaciones extremadamente restrictivas donde solo se dispone de unas pocas muestras de prueba. Específicamente, mostramos que atacar capas superficiales de DNN entrenados en pocos ejemplos de prueba puede generar poderosos ejemplos adversarios. Dado que solo se requiere una pequeña cantidad de muestras, nos referimos a estos ataques como ataques ligeros de caja negra. Un desafío importante en la generalización de ataques ligeros es mitigar los efectos adversos causados ​​por errores de aproximación superficiales. Dado que solo hay una pequeña cantidad de muestras disponibles, es difícil mitigar el error de aproximación, por lo que proponemos Error TransFormer (ETF) para ataques ligeros. Es decir, ETF transforma el error de aproximación en el espacio de parámetros en una perturbación en el espacio de características y mitiga el error perturbando las características. En los experimentos, los ataques ligeros de caja negra que utilizan el ETF propuesto logran resultados sorprendentes. Por ejemplo, incluso si solo hay disponible 1 muestra por clase, la tasa de éxito del ataque de caja negra liviana es solo un 3 % más baja que la de los datos de entrenamiento completos.

Enlace en papel: https://proceedings.neurips.cc/paper_files/paper/2022/file/7a9745f251508a053425a256490b0665-Paper-Conference.pdf

ade9f66996b75accd5636c47e34f0a9f.png

73、Entrenar con más confianza: mitigar las puertas traseras inyectadas y naturales durante el entrenamiento

Zhenting Wang, Hailun Ding, Juan Zhai, Shiqing Ma

Los ataques de puerta trasera o troyanos representan una seria amenaza para las redes neuronales profundas (DNN). Los investigadores encontraron que incluso los DNN capacitados en datos y configuraciones benignos pueden aprender el comportamiento de puerta trasera, conocido como puertas traseras naturales. Los trabajos de aprendizaje anti-puerta trasera existentes se basan en la débil observación de que las puertas traseras y los comportamientos benignos se pueden distinguir durante el entrenamiento. Un ataque adaptativo con envenenamiento crónico puede eludir esta defensa. Además, estos métodos no protegen contra las puertas traseras naturales. Encontramos una diferencia fundamental entre las neuronas relacionadas con la puerta trasera y las neuronas benignas: las neuronas relacionadas con la puerta trasera forman un hiperplano sobre el dominio de entrada de todas las etiquetas afectadas como una superficie de clasificación. Al analizar más a fondo el proceso de entrenamiento y la arquitectura del modelo, encontramos que una función lineal por partes conduce a esta superficie hiperplanar. En este artículo, diseñamos un nuevo método de entrenamiento que fuerza el entrenamiento para evitar generar tales hiperplanos, eliminando así la puerta trasera inyectada. Llevamos a cabo extensos experimentos en cinco conjuntos de datos contra cinco ataques de última generación y entrenamiento benigno, lo que demuestra que nuestro método puede superar las defensas de última generación existentes. En promedio, la ASR (Tasa de Éxito de Ataque) del modelo entrenado con NINGUNO es 54,83 veces menor bajo el ataque de puerta trasera envenenado estándar que el modelo desprotegido, y 1,75 veces menor que el modelo desprotegido bajo el ataque de puerta trasera natural. Nuestro código está disponible en https://github.com/RU-System-Software-and-Security/NONE.

Enlace en papel: https://proceedings.neurips.cc/paper_files/paper/2022/file/ec0c9ca85b4ea49c7ebfb503cf55f2ae-Paper-Conference.pdf

0976c20c29a844ecb61b80cc2507b0d1.png

74, Atrapar y reemplazar: defender los ataques de puerta trasera atrapándolos en una subred fácil de reemplazar

Haotao Wang, Junyuan Hong, Aston Zhang, Jiayu Zhou, Zhangyang Wang

Las redes neuronales profundas (DNN) son vulnerables a los ataques de puerta trasera. Estudios previos han demostrado que eliminar el mal comportamiento de puerta trasera de una red es extremadamente desafiante porque toda la red puede verse afectada por una muestra de puerta trasera. En este artículo, proponemos una nueva estrategia de defensa de puerta trasera que facilita la eliminación del modelo de los efectos nocivos de las muestras de puerta trasera. Nuestra estrategia de defensa "señuelo y reemplazo" consta de dos fases. En la primera etapa, hacemos señuelo y capturamos la puerta trasera en una subred pequeña y fácilmente reemplazable. Específicamente, agregamos un cabezal auxiliar de reconstrucción de imágenes encima de la red de cuadros compartida con el cabezal de clasificación liviano. El papel de este jefe es alentar a la red de cuadros a retener suficientes características visuales de bajo nivel que son difíciles de aprender pero semánticamente correctas, en lugar de sobreajustarse a correlaciones de puerta trasera fáciles de aprender pero semánticamente incorrectas. Por lo tanto, cuando se entrena en un conjunto de datos de puerta trasera, la puerta trasera puede engañarse fácilmente en el cabezal de clasificación desprotegido, ya que es más vulnerable que el cuadro compartido, dejando la red de cuadros con poca contaminación. En la segunda etapa, volvemos a entrenar el cabezal de clasificación de peso ligero no contaminado desde cero utilizando un pequeño conjunto de datos de reserva que contiene solo muestras limpias, mientras reparamos la red de cuadros para reemplazar el cabezal de clasificación de peso ligero contaminado. Por lo tanto, tanto el cuadro como el jefe de clasificación en la red final apenas se ven afectados por las muestras de entrenamiento de puerta trasera. Evaluamos nuestro método en diez ataques de puerta trasera diferentes. Nuestro método supera a los métodos de última generación anteriores por $3,14\%$, $1,80\%$ y $1,21\%$ en precisión de clasificación limpia en CIFAR10, GTSRB e ImageNet-12, respectivamente, y la tasa de éxito del ataque es como hasta $20,57\% $, $9,80\%$ y $13,72\%$. El código está disponible en https://github.com/VITA-Group/Trap-and-Replace-Backdoor-Defense.

Enlace del artículo: https://proceedings.neurips.cc/paper_files/paper/2022/file/ea06e6e9e80f1c3d382317fff67041ac-Paper-Conference.pdf

17ba018870a72f6985b3da6a07e345a6.png

75, TwiBot-22: hacia la detección de bots de Twitter basada en gráficos

Shangbin Feng, Zhaoxuan Tan, Herun Wan, Ningnan Wang, Zilong Chen, Binchi Zhang, Qinghua Zheng, Wenqian Zhang, Zhenyu Lei, Shujie Yang, Xinshun Feng, Qingyue Zhang, Hongrui Wang, Yuhan Liu, Yuyang Bai, Heng Wang, Zijian Cai , Yanbo Wang, Lijing Zheng, Zihan Ma, Jundong Li, Minnan Luo

La detección de bots de Twitter se ha convertido en una tarea cada vez más importante para combatir la desinformación, facilitar la conservación de las redes sociales y proteger la integridad del discurso en línea. Los métodos de detección de bots de última generación generalmente explotan la estructura gráfica de las redes de Twitter y muestran un rendimiento prometedor frente a los nuevos bots de Twitter que no pueden detectarse con los métodos tradicionales. Sin embargo, muy pocos conjuntos de datos de detección de bots de Twitter existentes están basados ​​en gráficos, e incluso estos pocos conjuntos de datos basados ​​en gráficos tienen un tamaño de conjunto de datos limitado, una estructura gráfica incompleta y anotaciones de baja calidad. De hecho, la falta de un punto de referencia de detección de bots de Twitter basado en gráficos a gran escala para abordar estos problemas ha obstaculizado gravemente el desarrollo y la evaluación de nuevos métodos de detección de bots basados ​​en gráficos. En este documento, presentamos TwiBot-22, un punto de referencia integral de detección de bots de Twitter basado en gráficos que proporciona el conjunto de datos más grande hasta la fecha, proporcionando diversas entidades y relaciones en la red de Twitter, y supera a los conjuntos de datos existentes con una mejor calidad de anotación. Además, volvimos a implementar 35 puntos de referencia representativos de detección de bots de Twitter y los evaluamos en 9 conjuntos de datos, incluido TwiBot-22, para facilitar la comparación imparcial del rendimiento del modelo y la comprensión integral del progreso de la investigación. Para facilitar una mayor investigación, integramos todos los códigos y conjuntos de datos implementados en el marco de evaluación TwiBot-22, donde los investigadores pueden evaluar nuevos modelos y conjuntos de datos de manera consistente. El marco de referencia y evaluación de detección de bots de Twitter de TwiBot-22 está disponible públicamente en \url{https://twibot22.github.io/}.

Enlace en papel: https://proceedings.neurips.cc/paper_files/paper/2022/file/e4fd610b1d77699a02df07ae97de992a-Paper-Datasets_and_Benchmarks.pdf

30d02bbf4b112eb89403644d5313b28.png

76, VoiceBlock: privacidad a través de ataques adversarios en tiempo real con modelos de audio a audio

Patrick O'Reilly, Andreas Bugler, Keshav Bhandari, Max Morrison, Bryan Pardo

A medida que los gobiernos y las empresas adoptan sistemas de aprendizaje profundo para recopilar y analizar datos de audio generados por los usuarios, surgen naturalmente preocupaciones sobre la seguridad y la privacidad en áreas como el reconocimiento automático de hablantes. Si bien los ejemplos contradictorios de audio brindan una forma de engañar o evadir estos sistemas invasivos, generalmente se crean a través de una optimización fuera de línea que consume mucho tiempo, lo que limita su utilidad en la configuración de transmisión. Inspirándonos en la arquitectura de las tareas de audio a audio, como la eliminación de ruido de audio y la mejora del habla, proponemos un modelo de red neuronal capaz de modificar adversariamente el flujo de audio de un usuario en tiempo real. Nuestro modelo aprende a aplicar filtros de respuesta de impulso finito (FIR) variables en el tiempo al audio emitido, lo que permite perturbaciones eficientes y discretas con pequeños retrasos fijos adecuados para tareas de transmisión. Demostramos que nuestro modelo es muy efectivo para eliminar el habla del usuario del reconocimiento del hablante y puede transferirse a sistemas de reconocimiento invisibles. Realizamos estudios de percepción y descubrimos que nuestro método produce perturbaciones significativamente menos perceptibles que los métodos de anonimización de línea de base mientras controlamos la efectividad. Finalmente, proporcionamos una implementación de modelo capaz de ejecutarse en tiempo real en un único subproceso de CPU. Las muestras de audio y el código se pueden encontrar en https://interactiveaudiolab.github.io/project/voiceblock.html.

Enlace en papel: https://proceedings.neurips.cc/paper_files/paper/2022/file/c204d12afa0175285e5aac65188808b4-Paper-Conference.pdf

Supongo que te gusta

Origin blog.csdn.net/riusksk/article/details/131629891
Recomendado
Clasificación