arXiv Academic Express Notes 11.30

1. KI-Sicherheit

(Gegnerisches Training) Topologieerhaltendes gegnerisches Training

Titel: Topologieerhaltendes kontradiktorisches Training
Link: https://arxiv.org/ abs /2311.17607
Autor: Xiaoyue Mi,Fan Tang,Yepeng Weng,Danding Wang,Juan Cao,Sheng Tang,Peng Li,Yang Liu < a i=6>Zusammenfassung: Das gegnerische Training ist zwar wirksam bei der Verbesserung der Robustheit neuronaler Netze, leidet jedoch unter der natürlichen Genauigkeit Degradationsproblem, das heißt, die Genauigkeit natürlicher Proben wurde stark verringert. In dieser Studie zeigen wir durch quantitative und qualitative Experimente, dass die natürliche Verschlechterung der Genauigkeit eine stark korrelierende Störung des Darstellungsraums natürlicher Probentopologien ist. Basierend auf dieser Beobachtung schlagen wir ein topologieerhaltendes gegnerisches Training (TRAIN) vor, das dieses Problem lindert, indem es die Topologie natürlicher Proben in einem Standardmodell beibehält, das während des gegnerischen Trainings nur auf natürlichen Proben trainiert wird. Als zusätzliche Regularisierung lässt sich unsere Methode einfach per Plug-and-Play mit verschiedenen gängigen gegnerischen Trainingsalgorithmen kombinieren und so die Vorteile beider Parteien nutzen. Umfangreiche Experimente mit CIFAR-10, CIFAR-100 und Tiny ImageNet zeigen, dass unsere vorgeschlagene Methode in den meisten Fällen konsistente und signifikante Verbesserungen gegenüber verschiedenen starken Basislinien erzielt. Konkret verbessert unsere vorgeschlagene Methode ohne zusätzliche Daten die natürliche Genauigkeit um 8,78 % und die robuste Genauigkeit um 4,50 %. Zusammenfassung: Trotz der Wirksamkeit bei der Verbesserung der Robustheit neuronaler Netze hat das gegnerische Training unter dem Problem der natürlichen Verschlechterung der Genauigkeit gelitten, d. h. die Genauigkeit bei natürlichen Proben hat abgenommen In dieser Studie zeigen wir, dass die Genauigkeit der natürlichen Verschlechterung in hohem Maße mit der Störung der natürlichen Probentopologie im Darstellungsraum durch quantitative und qualitative Experimente zusammenhängt. Basierend auf dieser Beobachtung schlagen wir Topology-pReserving Adversarial traINing (TRAIN) vor, um dies zu lindern Das Problem wird durch die Beibehaltung der Topologiestruktur natürlicher Proben aus einem Standardmodell gelöst, das während des gegnerischen Trainings nur auf natürlichen Proben trainiert wurde. Als zusätzliche Regularisierung kann unsere Methode problemlos mit verschiedenen gängigen gegnerischen Trainingsalgorithmen im Plug-and-Play-Verfahren kombiniert werden Vorteil für beide Seiten. Umfangreiche Experimente mit CIFAR-10, CIFAR-100 und Tiny ImageNet zeigen, dass unsere vorgeschlagene Methode in den meisten Fällen konsistente und signifikante Verbesserungen gegenüber verschiedenen starken Basislinien erzielt. Insbesondere ohne zusätzliche Daten erreicht unsere vorgeschlagene Methode bis zu 8,78 % Verbesserung der natürlichen Genauigkeit und 4,50 % Verbesserung der robusten Genauigkeit.


(Gegnerische Angriffe) Gruppenweise spärliche und erklärbare gegnerische Angriffe

Titel: Gruppe spärlicher und erklärbarer gegnerischer Angriffe
Link: https:// arxiv.org/ abs/2311.17434
Autor: Shpresim Sadiku,Moritz Wagner,Sebastian Pokutta
Zusammenfassung: Spärliche gegnerische Angriffe täuschen tiefe neuronale Netze (DNNs) mit minimaler Pixelstörung, typischerweise dargestellt durch ℓ 0 \ell_0 0 Norm-Regularisierung. Jüngste Bemühungen haben diese Norm durch strukturelle Sparsity-Regularisierer (wie die Kernel-Gruppennorm) ersetzt, um gegnerische Gruppensparsity-Angriffe zu erstellen. Die daraus resultierenden Störungen sind daher erklärbar und haben wichtige praktische Auswirkungen, da sie eine größere Anfälligkeit von DNNs offenbaren als bisher erwartet. Allerdings stellt die Gestaltung dieses Angriffs Optimierungsherausforderungen dar, da es darum geht, die Norm von Pixelgruppen innerhalb eines nicht konvexen Ziels zu berechnen. In diesem Artikel schlagen wir einen Algorithmus vor, um dieser Herausforderung zu begegnen und gleichzeitig gruppenweise, spärliche Angriffe auf semantisch bedeutsame Bereiche des Bildes zu generieren. In jeder Iteration besteht die Kernoperation unseres Algorithmus in der Optimierung des quasi-unabhängigen gegnerischen Verlusts. Diese Optimierung wird durch die Verwendung von 1 / 2 1/2 erreichtDer 1/2-quasi-invariante Approximationsoperator wird mit einigen Iterationen implementiert, eine Methode, die auf die nicht-konvexe Programmierung zugeschnitten ist. Anschließend geht der Algorithmus zur Vorhersage des beschleunigten Gradientenabstiegs von Nesterov mit 2 2 2-Norm-Regularisierung wird auf die Störungsamplitude angewendet. Wir bewerten die Wirksamkeit unseres neuartigen Angriffs in gezielten und nicht gezielten Angriffsszenarien auf CIFAR-10- und ImageNet-Datensätze sorgfältig. Unser Angriff führt durchweg zu einem deutlichen Anstieg der Gruppensparsität im Vergleich zu modernsten Methoden, z. B. 48,12 % bei CIFAR-10 und 40,78 % bei ImageNet (Durchschnittsfall, gezielter Angriff), während gleichzeitig eine niedrige Störungsamplitude aufrechterhalten wird. Bemerkenswert ist, dass diese Leistung durch schnellere Rechenzeiten und eine Erfolgsquote von 100 $ bei Angriffen ergänzt wird.
Zusammenfassung: Spärliche gegnerische Angriffe täuschen tiefe neuronale Netze (DNNs) durch minimale Pixelstörungen, die typischerweise durch ℓ 0 reguliert werden \ell_0 0 Norm. Jüngste Bemühungen haben diese Norm durch einen strukturellen Sparsity-Regularisierer wie die Kerngruppennorm ersetzt, um gruppenweise spärliche gegnerische Angriffe zu ermöglichen. Die daraus resultierenden Störungen sind somit erklärbar und von erheblicher praktischer Relevanz und werfen ein Licht auf eine noch größere Anfälligkeit von DNNs als bisher angenommen. Die Entwicklung solcher Angriffe stellt jedoch eine Optimierungsherausforderung dar, da dabei Normen für Pixelgruppen innerhalb eines nicht konvexen Ziels berechnet werden müssen. In diesem Artikel gehen wir diese Herausforderung an, indem wir einen Algorithmus vorstellen, der gleichzeitig gruppenweise spärliche Angriffe innerhalb semantisch bedeutsamer Bereiche eines Bildes generiert. In jeder Iteration besteht die Kernoperation unseres Algorithmus in der Optimierung eines Quasinorm-Gegnerverlusts. Diese Optimierung wird durch die Verwendung von 1 / 2 1/2 erreicht1/2-Quasinorm-Proximaloperator für einige Iterationen, eine Methode, die auf die nichtkonvexe Programmierung zugeschnitten ist. Anschließend geht der Algorithmus zu einem projizierten beschleunigten Nesterov-Gradientenabstieg mit 2 2 2-Norm-Regularisierung, angewendet auf Störungsgrößen. Wir bewerten die Wirksamkeit unseres neuartigen Angriffs sowohl in gezielten als auch in nicht gezielten Angriffsszenarien streng anhand von CIFAR-10- und ImageNet-Datensätzen. Im Vergleich zu modernsten Methoden führt unser Angriff durchweg zu einem bemerkenswerten Anstieg der gruppenweisen Sparsity, z. B. einem Anstieg von 48,12 % 48,12\% 48,12 % auf CIFAR-10 und 40,78 % 40,78\% 40,78 % auf ImageNet (Durchschnittsfall, gezielter Angriff), und das alles unter Beibehaltung geringerer Störungsgrößen. Bemerkenswert ist, dass diese Leistung durch eine deutlich schnellere Rechenzeit und einen 100 % 100\% 100 % Angriffserfolgsrate.


(Angriff auf Diffusionsmodelle) MMA-Diffusion: Multimodaler Angriff auf Diffusionsmodelle

Titel: MMA-Diffusion: Multimodale Angriffe auf Diffusionsmodelle
Link: https:// arxiv. org/abs/2311.17516
Autor: Yijun Yang, Ruiyuan Gao, Xiaosen Wang, Nan Xu, Qiang Xu
Zusammenfassung: In den letzten Jahren haben Text-to-Image-Modelle (T2I) erhebliche Fortschritte gemacht und eine breite Akzeptanz gefunden. Diese Entwicklung hat jedoch unbeabsichtigt Möglichkeiten für potenziellen Missbrauch eröffnet, insbesondere bei der Erstellung unangemessener oder nicht sicherer Inhalte (NSFW). Unsere Arbeit stellt MMA-Diffusion vor, ein Framework, das aktuelle Abwehrmechanismen in Off-Source-Modellen und kommerziellen Online-Diensten für T2I wirksam umgeht, indem die Modellsicherheit eine erhebliche und gegenwärtige Bedrohung darstellt. Im Gegensatz zu früheren Methoden nutzt MMA-Diffusion Text- und visuelle Formen, um Schutzmaßnahmen wie Prompt-Filter und Post-Mortem-Sicherheitsüberprüfungen zu umgehen und so Schwachstellen in bestehenden Abwehrmechanismen aufzudecken und hervorzuheben.
Zusammenfassung: In den letzten Jahren haben Text-to-Image (T2I)-Modelle bemerkenswerte Fortschritte gemacht und eine breite Akzeptanz gefunden. Dieser Fortschritt hat jedoch unbeabsichtigt neue Wege eröffnet für potenziellen Missbrauch, insbesondere bei der Generierung unangemessener oder nicht arbeitssicherer (NSFW) Inhalte. Unsere Arbeit führt MMA-Diffusion ein, ein Framework, das eine erhebliche und realistische Bedrohung für die Sicherheit von T2I-Modellen darstellt, indem es aktuelle Abwehrmaßnahmen wirksam umgeht Sowohl Open-Source-Modelle als auch kommerzielle Online-Dienste. Im Gegensatz zu früheren Ansätzen nutzt MMA-Diffusion sowohl textliche als auch visuelle Modalitäten, um Schutzmaßnahmen wie Prompt-Filter und Post-hoc-Sicherheitsprüfungen zu umgehen und so die Schwachstellen bestehender Abwehrmechanismen aufzudecken und hervorzuheben.

Referenzlink

Guess you like

Origin blog.csdn.net/m0_38068876/article/details/134710406