Disposición de ponencias sobre contraataques

Parte de la cotización, si hay infracción, notificar para eliminar.
Comprensión personal, si hay algún problema, corríjame.

El concepto de contraataque

Al agregar deliberadamente alteraciones imperceptibles a las muestras de entrada en el conjunto de datos, el modelo da una salida incorrecta.

Principio de contraataque

  1. "Propiedades intrigantes de las redes neuronales" (2013) [1]
    Dirección de origen del artículo: http://de.arxiv.org/pdf/1312.6199
    Notas de referencia: https://zhuanlan.zhihu.com/p/217683614?utm_source=qq
    Contribución en papel:
    ① Lo que transporta información semántica en una red neuronal no es una sola neurona, sino el espacio representado por toda la red (o esa capa)
    La discontinuidad del mapeo de entrada y salida causada por la no linealidad del modelo de red neuronal profunda, más el sobreajuste causado por un promedio de modelo insuficiente y una regularización insuficienteHace posibles los contraataques.
    ③Utilizar L-BFGS para generar una aproximación
    de las muestras adversas Proponer que agregar muestras adversarias al conjunto de entrenamiento puede mejorar la solidez del modelo

  2. "Explicación y aprovechamiento de los ejemplos antagónicos" (2014) [2]
    Dirección de la fuente del artículo: http://de.arxiv.org/pdf/1412.6572
    Notas de referencia: https://zhuanlan.zhihu.com/p/33875223
    Contribución del artículo:
    Lineal en espacio de alta dimensiónBasta con crear muestras adversas La principal razón de la vulnerabilidad de los modelos profundos a las muestras adversarias es la existencia de su parte lineal. Al transformar el modelo en un modelo RBF no lineal, se puede reducir la vulnerabilidad del modelo de red neuronal para contrarrestar los ataques.
    ② Se propuso el método de símbolo de gradiente rápido (FGSM) para generar muestras adversas ving
    La mejora de la función objetivo basada en el método de símbolo de gradiente rápido puede lograr un buen efecto de regularización

Métodos de contraataque

Función de pérdida basada en el modelo objetivo

  1. Artículos
    relacionados con L-BFGS : "Propiedades intrigantes de las redes neuronales" (2013) [1]
    Notas de referencia: https://zhuanlan.zhihu.com/p/217683614?utm_source=qq
    Núcleo del algoritmo: algoritmo de optimización de L-BFGS a través de cuasi-Newton Minimice la perturbación r bajo la restricción de caja y agregue la perturbación r después del ataqueCategoría de destino lLa función de pérdida en genera una perturbación mínima aproximada
    Inserte la descripción de la imagen aquí
  2. FGSM ——> IFGSM (también llamado BIM), ILCM ——> Documentos
    relacionados con R + FGSM : FGSM: "Explaining And Harnessing Adversarial Examples" (2014) [2]
    IFGSM (también llamado BIM), ILCM: "Ejemplos de adversarios en el Mundo físico "(2016)
    R + FGSM:" Ensemble Adversarial Training: Attacks and Defenses "(2017)
    Fuente del artículo: FGSM: http://de.arxiv.org/pdf/1412.6572
    IFGSM (también llamado BIM), ILCM: http://arxiv.org/pdf/1607.02533
    Notas de referencia: FGSM: https://zhuanlan.zhihu.com/p/33875223:
    IFGSM (también llamado BIM), ILCM: https://www.jianshu.com/p / 2f3b15617236
    Mis notas: Notación de degradado rápido (FGSM) y su mejora

Núcleo del algoritmo:
FGSM: agregue una cierta perturbación (controlada por ε) al signo de dirección del gradiente (▽ J (θ, x, y)) donde aumenta la función de pérdida.
Inserte la descripción de la imagen aquí
IFGSM: Genere iterativamente muestras adversas en múltiples pasos, y el efecto de ataque es mejor , Menos perturbación
Inserte la descripción de la imagen aquí
R + FGSM: el autor aprobóReemplace el incorporado con la salida del ataque de un solo pasoMaximizar la solución del problema para aproximar la ecuación, el costo computacional de generar muestras adversas es menor y puede extenderse a grandes conjuntos de datos para el entrenamiento adversario.
Inserte la descripción de la imagen aquí

Estructura de red basada en el modelo de destino

  1. Documento relacionado con JSMA (Jacobian Saliency Map Attack)
    : "Las limitaciones del aprendizaje profundo en entornos adversarios" (2015)
    Fuente del artículo: http://lanl.arxiv.org/pdf/1511.07528.pdf
    Notas de referencia: https: // blog .csdn.net / qq_36415775 / article / details / 89205794
    Código relacionado: https://github.com/gongzhitaao/tensorflow-adversarial/tree/master/example
    Núcleo del algoritmo: uso del mapa de prominencia jacobiano para guiar iterativamente la estructura de la red Agregue perturbación al píxel con el número más grande (cuanto mayor sea la derivada, mayor será el cambio en el valor de y)

  2. DeepFool ——>
    Documentos relacionados con Universal Adversarial Perturbations : "DeepFool: un método simple y preciso para engañar a las redes neuronales profundas" (2016_CVPR)
    "Universal Adversarial Perturbations" (2017_IEEE)
    Dirección de la fuente del artículo: DeepFool: https: //www.cv-foundation .org / openaccess / content_cvpr_2016 / app / S12-10.pdf
    Perturbaciones adversas universales: https://arxiv.org/pdf/1610.08401v3.pdf
    Notas de referencia: https://www.dazhuanlan.com/2019/12/09 / 5dee1b61a6844 /
    Código relacionado: https://github.com/LTS4/universal
    algoritmo núcleo:
    DeepFool: a través del cálculoLa distancia mínima de la muestra al hiperplano de clasificación.Generar perturbación mínima
    Inserte la descripción de la imagen aquí
    Perturbaciones adversarias universales: a través de la acumulación múltiple de perturbaciones, encontrar la perturbación más universal (que puede perturbar múltiples imágenes)
    Perturbaciones adversas universales


  3. Documento relacionado con One Pixel Attack : "One Pixel Attack for Fooling Deep Neural Networks" (2017)
    Dirección de origen del documento: https://arxiv.org/abs/1710.08864
    Código relacionado: https://github.com/Hyperparticle/one-pixel -ataque-
    notas de referencia de keras :
    núcleo del algoritmo: aprobadoEvolución diferencialEl algoritmo de optimización limita la cantidad de píxeles que se pueden cambiar para maximizar la probabilidad de que la muestra adversaria se divida en la etiqueta adversaria para generar perturbaciones e (x)
    Inserte la descripción de la imagen aquí


  4. Documento relacionado con C&W (The Carlini y Wagner) : "Hacia la evaluación de la solidez de las redes neuronales" (2017.3)
    Dirección de la fuente del artículo: http://arxiv.org/abs/1608.04644v1
    Código relacionado: https://github.com/carlini / nn_robust_attacks
    notas de referencia: https://zhuanlan.zhihu.com/p/266726084
    Núcleo del algoritmo: el más incomprensible, especialmente la conversión de C (x + r) = t af (x + r) <= 0 El problema no se comprende

Predecir la probabilidad según el modelo objetivo

Predecir resultados según el modelo de destino


  1. Documento relacionado con Boundary Attack : "Ataques adversarios basados ​​en decisiones: ataques confiables contra los machi de caja negra" (2018)
    Dirección de la fuente del artículo: https://arxiv.org/pdf/1712.04248.pdf
    Código relacionado: https://github.com / greentfrapp / boundary-attack
    notas de referencia: https://zhuanlan.zhihu.com/p/67320040
    Núcleo del algoritmo : ①Inicialización de muestras adversas: inicialización aleatoria para ataques que no son objetivos y los ataques a objetivos se inicializan como imágenes objetivo las muestras
    cambian gradualmente desde la inicialización La muestra original está cerca de
    Ataque de límites

Defensa contra adversarios

  1. Entrenamiento adversario: los
    defensores construyen ataques adversarios por sí mismos y agregan muestras adversarias con alteración artificialmente aumentada a los datos de entrenamiento, mejorando así el conjunto de entrenamiento y haciendo que el modelo obtenido después del entrenamiento sea más estable.
    Artículos relacionados:
    ① "Propiedades intrigantes de las redes neuronales" (2014)

② "Ensemble Adversarial Training: Attacks and Defenses" (2017): Proponer una formación adversa integrada.
Notas de referencia: https://www.cnblogs.com/gris3/p/12688506.html

Preguntas sobre este método:
"Hacia modelos de aprendizaje profundo resistentes a los ataques adversarios"
mencionaron que los ataques más débiles se utilizan para el entrenamiento adversario , pero a menudo no aumenta la solidez del modelo para ataques más fuertes.


  1. Documentos relacionados con la detección de muestras adversas:
    ① "Métodos tempranos para detectar imágenes adversarias" (2017)
    ② "La compresión de características mitiga y detecta ejemplos de adversarios de Carlini / Wagner" (2017)
    ③ "Expresión de características: detección de ejemplos de adversarios en redes neuronales profundas" (2018)

La dirección de origen del artículo: ①https: //openreview.net/pdf? Id = B1dexpDug

Código relevante: ①https: //github.com/hendrycks/fooling
cuestionó el método:
① "Los ejemplos de adversarios no se detectan fácilmente: eludir diez métodos de detección" (2017)
Dirección de origen del artículo: http://arxiv.org/ pdf / 1705.07263

  1. Anti-restauración de muestras y eliminación de ruido
    Documentos relacionados:
    ① "Defensa contra ataques de adversarios mediante el uso de denoiser guiado por representación de alto nivel"
    dirección de la fuente del papel: http://arxiv.org/pdf/1712.02976
    ② "ComDefend: un modelo de compresión de imágenes eficiente para defender al adversario Ejemplos》


  2. Destilación de ocultación de gradientes : artículos
    relacionados①
    "La destilación como defensa contra perturbaciones adversas contra redes neuronales profundas" (2016.3)
    Este método completa la mejora de la estabilidad del modelo en dos pasos: el primer paso es entrenar el modelo de clasificación y la última capa de La capa softmax se divide por una constante T; el segundo paso es entrenar el segundo modelo con la misma entrada, pero la etiqueta de los datos de entrenamiento no es la etiqueta original, pero el vector de probabilidad de la última capa del modelo entrenado en el primer paso se usa como el softmax final El objetivo de la capa.
    ② "Ampliación de la destilación defensiva" (2017.5)

Preguntas sobre este método:
"Los gradientes ofuscados dan una falsa sensación de seguridad: eludiendo las defensas a los ejemplos de adversarios"
El documento menciona que se descubrió un fenómeno de "gradiente ofuscado", que brinda defensa contra las muestras. Falsa sensación de seguridad. En el caso de estudio, probé 8 artículos recibidos por ICLR 2018 y descubrí que el gradiente de confusión es un fenómeno común. Entre ellos, 7 artículos se basaron en el gradiente de confusión y fueron superados con éxito por esta nueva técnica de ataque.

  1. Sistemas de detección: (Agregue un sistema de detección adicional antes del modelo de red objetivo para determinar si la entrada es una muestra adversa que ha sido alterada artificialmente)
    ① Realice pruebas estadísticas: "Sobre la detección (estadística) de ejemplos adversarios" (2017.2)
    ②Utilice un modelo adicional para detección: "Los datos contradictorios y limpios no son gemelos" (2017.4)
    ③ "Sobre la detección de perturbaciones adversas" (2017.2)
    ④Aplicar la deserción en el momento de la prueba: "Detectar muestras adversas a partir de artefactos" (2017.3)

  2. Preprocesamiento
    ①Add capa de aleatorización: "Efectos Acusatorios atenuantes través de aleatorización" (2017)

  3. Uso de GAN
    ①Generative Adversarial Networks (GAN): "Generative Adversarial Trainer Defense to Adversarial Perturations with GAN" (2017.5)
    ② "AE-GAN: adversarial Elimination with GAN" (2017.7)
    Notas del artículo: (https://www.zybuluo.com / wuxin1994 / note / 881171)
    ③ "Defensas Eficientes Contra Ataques Adversarios" (2017.7)
    notas de papel: (https://www.zybuluo.com/wuxin1994/note/863551)

Ejemplo de contraataque

  1. Confrontando parches de imagen Artículos
    relacionados: "Parche Adversarial"
    Dirección de origen del artículo: https://link.zhihu.com/?target=http%3A//arxiv.org/abs/1712.09665
    Contribución del artículo: Proponer una creación en el mundo real Método universal, robusto y específico para combatir los parches de imagen


  2. Documento relacionado con el reconocimiento de objetos
    : Dirección de origen del documento "Robust Physical Adversarial Attack on Faster R-CNN Object Detector" : https://link.zhihu.com/?target=https%3A//arxiv.org/abs/1804.05810

  3. 《Accesorio para un crimen: ataques reales y sigilosos al reconocimiento facial de última generación》 (2016.10)
    面部 识别 :

  4. "Ejemplos de adversarios en el mundo físico" (2017.2)
    Fotos reales tomadas:
    este artículo tiene aplicaciones prácticas. Los ataques de adversarios a menudo no pueden utilizar ejemplos de adversarios digitales como entrada del clasificador de destino y solo pueden imprimir los ejemplos de adversarios en papel. Entonces, cuando la entrada de la red de destino se obtiene tomando fotos o similar, la perturbación agregada artificialmente es relativamente pequeña y se genera una distorsión durante la toma de imágenes, que no puede lograr el propósito del ataque.

  5. 《Robustos ataques del mundo físico a modelos de aprendizaje automático》 (2017.7)

  6. 《Nota sobre los detectores de objetos atacantes con pegatinas de adversario》

  7. 《Problemas concretos para la seguridad de los vehículos autónomos: ventajas del aprendizaje profundo bayesiano》 (2017)

Coche auto:

  1. 《Perturbaciones adversas contra redes neuronales profundas para la clasificación de malware》 (2016.6)

Notas de papel: (https://www.zybuluo.com/wuxin1994/note/854417)

  1. 《Generación de ejemplos de malware adverso para ataques de caja negra basados ​​en GAN》 (2017.5)

Notas de papel: (https://www.zybuluo.com/wuxin1994/note/867495)

  1. 《Sintetizar ejemplos de adversarios sólidos》
    3D 打印 :

[1]: Szegedy C, Zaremba W, Sutskever I, et al. Propiedades intrigantes de las redes neuronales. preprint de arXiv arXiv: 1312.6199, 2013.
[2]: Goodfellow, Ian J., Jonathon Shlens y Christian Szegedy. "Explicar y aprovechar los ejemplos contradictorios". preimpresión de arXiv arXiv: 1412.6572 (2014).
[3]: https://mermaidjs.github.io/
[4]: http://adrai.github.io/flowchart.js/

Supongo que te gusta

Origin blog.csdn.net/qq_36488756/article/details/109190274
Recomendado
Clasificación