arXiv Academic Express Notes 12.7

1. ScAR: Skalierung der gegnerischen Robustheit für die LiDAR-Objekterkennung (ScAR: Adversarial Scaling Algorithm for LiDAR Object Detection)

Titel: ScAR: Ein gegnerischer Skalierungsalgorithmus für die Lidar-Zielerkennung
Link: https:/ / arxiv.org/abs/2312.03085
Autor: Xiaohu Lu,Hayder Radha
Zusammenfassung: Die gegnerische Robustheit eines Modells bezieht sich auf seine Fähigkeit, gegnerischen Angriffen in Form kleiner Störungen in den Eingabedaten zu widerstehen. Allgemeine gegnerische Angriffsmethoden wie die Fast Signed Gradient Method (FSGM) und die Projected Gradient Decomposition (PGD) sind bei der LiDAR-Objekterkennung beliebt, weisen jedoch im Vergleich zu aufgabenspezifischen gegnerischen Angriffen häufig Mängel auf. Darüber hinaus erfordern diese allgemeinen Methoden häufig uneingeschränkten Zugriff auf die Modellinformationen, was in realen Anwendungen nur schwer möglich ist. Um diese Einschränkungen zu beheben, schlagen wir eine ScAR-Methode (Black-Box Scaling Adversarial Robustness) für die LiDAR-Objekterkennung vor. Durch die Analyse der statistischen Eigenschaften von 3D-Objekterkennungsdatensätzen wie KITTI, Waymo und nuScenes haben wir festgestellt, dass die Vorhersagen des Modells empfindlich auf die Skalierung von 3D-Instanzen reagieren. Es werden drei gegnerische Angriffsmethoden mit Black-Box-Skalierung vorgeschlagen, die auf verfügbaren Informationen basieren: Modellbewusster Angriff, Verteilungsbewusst Angriff und Blindangriff. Wir stellen außerdem eine Strategie zur Generierung skalierter gegnerischer Beispiele vor, um die Robustheit des Modells gegenüber diesen drei skalierten gegnerischen Angriffen zu verbessern. Vergleiche mit anderen Methoden an öffentlichen Datensätzen unter verschiedenen 3D-Objekterkennungsarchitekturen zeigen die Wirksamkeit unserer vorgeschlagenen Methode. Zusammenfassung: Die gegnerische Robustheit eines Modells ist seine Fähigkeit, gegnerischen Angriffen in Form kleiner Störungen der Eingabedaten zu widerstehen. Universelle gegnerische Angriffsmethoden wie Fast Sign Gradient Method (FSGM) und Projected Gradient Descend (PGD) sind für die LiDAR-Objekterkennung beliebt, weisen jedoch im Vergleich zu aufgabenspezifischen gegnerischen Angriffen häufig Mängel auf. Darüber hinaus erfordern diese universellen Methoden in der Regel uneingeschränkten Zugriff auf die Modellinformationen, was schwierig ist in realen Anwendungen zu erhalten. Um diese Einschränkungen zu beheben, stellen wir eine Black-Box-Methode zur Scaling Adversarial Robustness (ScAR) für die LiDAR-Objekterkennung vor. Durch die Analyse der statistischen Eigenschaften von 3D-Objekterkennungsdatensätzen wie KITTI, Waymo und nuScenes, Wir haben festgestellt, dass die Vorhersage des Modells empfindlich auf die Skalierung von 3D-Instanzen reagiert. Basierend auf den verfügbaren Informationen schlagen wir drei gegnerische Angriffsmethoden mit Black-Box-Skalierung vor: modellbewusster Angriff, verteilungsbewusster Angriff und blinder Angriff. Außerdem stellen wir eine Strategie vor zum Generieren von Beispielen für skalierende gegnerische Angriffe, um die Robustheit des Modells gegenüber diesen drei skalierenden gegnerischen Angriffen zu verbessern. Der Vergleich mit anderen Methoden an öffentlichen Datensätzen unter verschiedenen 3D-Objekterkennungsarchitekturen zeigt die Wirksamkeit unserer vorgeschlagenen Methode.

2. DreamVideo: High-Fidelity-Bild-zu-Video-Generierung mit Bildspeicherung und Textführung (DreamVideo: High-Fidelity-Bild-zu-Video-Generierung mit Bildspeicherung und Textführung)

Titel: DreamVideo: High-Fidelity-Bild-zu-Video-Generierung mit Bildkonservierung und Textführung
Link: https://arxiv.org/abs/2312.03018

Autor: Cong Wang, Jiaxi Gu, Panwen Hu, Songcen Xu, Hang Xu, Xiaodan Liang
Zusammenfassung: Die Image-to-Video-Generierung, die darauf abzielt, ausgehend von einem bestimmten Referenzbild ein Video zu generieren, hat große Aufmerksamkeit erregt. Bestehende Methoden versuchen,vorab trainierte textgesteuerte Bilddiffusionsmodelleaufbildgesteuerte Videogenerierungsmodellezu erweitern. a> Die Bild-zu-Video-Generierung, die darauf abzielt, ausgehend von einem bestimmten Referenzbild ein Video zu generieren, hat große Aufmerksamkeit erregt. Bestehende Methoden versuchen zu erweitern von vorab trainierten textgesteuerten Bilddiffusionsmodellen zu bildgesteuerten Videogenerierungsmodellen. Dennoch führen diese Methoden aufgrund ihrer Beschränkung auf flache Bildführung und schlechte zeitliche Konsistenz häufig entweder zu geringer Wiedergabetreue oder zu Flackern im Laufe der Zeit. Um diese Probleme anzugehen, haben wir Schlagen Sie eine hochauflösende Bild-zu-Video-Generierungsmethode vor, indem Sie einen Frame-Retention-Zweig auf der Grundlage eines vorab trainierten Videodiffusionsmodells namens DreamVideo entwerfen. Anstatt das Referenzbild auf semantischer Ebene in den Diffusionsprozess zu integrieren, ist unser DreamVideo nimmt das Referenzbild über Faltungsschichten wahr und verkettet die Merkmale mit den verrauschten Latentdaten als Modelleingabe. Auf diese Weise können die Details des Referenzbilds weitestgehend erhalten bleiben. Darüber hinaus kann durch die Integration einer klassifikatorfreien Führung mit doppelten Bedingungen Ein einzelnes Bild kann durch die Bereitstellung unterschiedlicher Eingabeaufforderungstexte auf Videos verschiedener Aktionen umgelenkt werden. Dies hat erhebliche Auswirkungen auf die kontrollierbare Videogenerierung und birgt breite Anwendungsaussichten. Wir führen umfassende Experimente mit dem öffentlichen Datensatz durch. Sowohl quantitative als auch qualitative Ergebnisse zeigen, dass unsere Methode überlegen ist die hochmoderne Methode. Insbesondere aus Gründen der Wiedergabetreue verfügt unser Modell über eine leistungsstarke Bildspeicherfähigkeit und führt im Vergleich zu anderen Bild-zu-Video-Modellen zu einem hohen FVD in UCF101. Außerdem kann eine präzise Steuerung durch die Bereitstellung verschiedener Textaufforderungen erreicht werden . Weitere Details und umfassende Ergebnisse unseres Modells werden unter https://anonymous0769.github.io/DreamVideo/ präsentiert.Zusammenfassung:. Um diese Probleme zu lösen, schlagen wir eine hochauflösende Bild-zu-Video-Generierungsmethode vor, indem wir einen Frame-erhaltenden Zweig namens DreamVideo entwerfen, der auf einem vorab trainierten Videodiffusionsmodell basiert. Anstatt Referenzbilder in einen Diffusionsprozess auf semantischer Ebene zu integrieren, erkennt unser DreamVideo Referenzbilder über Faltungsschichten und verkettet Merkmale mit Rauschlatenz als Modelleingabe. Auf diese Weise können die Details des Referenzbildes weitestgehend erhalten bleiben. Darüber hinaus kann durch die Einbeziehung bikonditionaler, klassifikatorfreier Anleitung ein einzelnes Bild durch die Bereitstellung unterschiedlicher Aufforderungstexte auf Videos verschiedener Aktionen verwiesen werden. Dies ist für die Erzeugung steuerbarer Videos von großer Bedeutung und bietet breite Anwendungsaussichten. Wir führen umfangreiche Experimente mit öffentlichen Datensätzen durch und sowohl quantitative als auch qualitative Ergebnisse zeigen, dass unsere Methode modernste Methoden übertrifft. Insbesondere im Hinblick auf die Wiedergabetreue verfügt unser Modell über starke Bildkonservierungsfunktionen und einen höheren FVD in UCF 101 im Vergleich zu anderen Bild-zu-Video-Modellen. Darüber hinaus kann eine präzise Steuerung durch unterschiedliche Textansagen erreicht werden. Weitere Details und umfassende Ergebnisse unseres Modells finden Sie unter https://anonymous0769.github.io/DreamVideo/. Blinkt im Laufe der Zeitoderniedriger Wiedergabetreue. Diese Methoden führen jedoch häufig zu

3. Selbstkonditionierte Bildgenerierung durch Generieren von Repräsentationen (selbstkonditionierte Bildgenerierung basierend auf generierten Repräsentationen)

Titel: Selbstbedingte Bildgenerierung basierend auf generativer Darstellung
Link: https://arxiv . org/abs/2312.03701
Autor: Tianhong Li,Dina Katabi,Kaiming He
Bemerkungen:< a i =7>Konzentrieren Sie sich auf zwei Indikatoren der Bilderzeugung: FID und IS Zusammenfassung: In diesem Artikel wird eine bedingte Bildmethode RCG vorgeschlagen, die einfach und effektiv ist Ein Bildgenerierungs-Framework, das einen neuen Maßstab für die klassenunabhängige Bildgenerierung setzt. RCG ist nicht auf menschliche Anmerkungen angewiesen. Stattdessen ist es auf eine selbstüberwachte Darstellungsverteilung angewiesen, die mithilfe eines vorab trainierten Encoders aus der Bildverteilung abgebildet wird. Während der Generierung entnimmt RCG mithilfe eines Repräsentationsdiffusionsmodells (Representation Diffusion Model, RDM) Stichproben aus einer solchen Darstellungsverteilung und verwendet einen Pixelgenerator, um Bildpixel an die abgetasteten Darstellungen anzupassen. Dieses Design bietet umfassende Anleitung während des Generierungsprozesses und führt zu qualitativ hochwertigen Bildern. Getestet auf ImageNet 256$\times$256, erreichte RCG 3,31Frechet Inception Distance (FID) und 253,4Inception Score ( IS). Diese Ergebnisse bringen nicht nur den Stand der Technik bei der klassenbedingten Bildgenerierung erheblich voran, sondern sind auch mit den derzeit führenden Methoden bei der klassenbedingten Bildgenerierung vergleichbar und schließen die seit langem bestehende Leistungslücke zwischen diesen beiden Aufgaben. Der Code ist unter https://github.com/LTH14/rcg verfügbar. Zusammenfassung: Dieses Papier präsentiert R \textbf{R}

RDarstellung- C \textbf{C} Ckonditioniertes Bild G \textbf{G} Generation (RCG), ein einfaches, aber effektives Bildgenerierungs-Framework, das einen neuen Maßstab in der klassenunabhängigen Bildgenerierung setzt. RCG ist nicht auf menschliche Anmerkungen angewiesen. Stattdessen basiert es auf einer selbstüberwachten Darstellungsverteilung, die mithilfe eines vorab trainierten Encoders aus der Bildverteilung abgebildet wird. Während der Generierung entnimmt RCG mithilfe eines Repräsentationsdiffusionsmodells (Representation Diffusion Model, RDM) Stichproben aus einer solchen Darstellungsverteilung und verwendet einen Pixelgenerator, um Bildpixel zu erstellen, die auf der abgetasteten Darstellung basieren. Ein solches Design bietet eine wesentliche Orientierung während des Generierungsprozesses und führt zu einer qualitativ hochwertigen Bilderzeugung. Getestet auf ImageNet 256$\times$256 erreicht RCG eine Frechet Inception Distance (FID) von 3,31 und einen Inception Score (IS) von 253,4. Diese Ergebnisse verbessern nicht nur den Stand der Technik der klassenbedingten Bildgenerierung erheblich, sondern konkurrieren auch mit den derzeit führenden Methoden der klassenbedingten Bildgenerierung und schließen die seit langem bestehende Leistungslücke zwischen diesen beiden Aufgaben. Der Code ist unter https://github.com/LTH14/rcg verfügbar.

4. Generieren eines visuell realistischen gegnerischen Patches (Generieren visuell realistischer gegnerischer Patches)

Titel: Generieren visuell realistischer gegnerischer Patches
Link: https://arxiv.org /abs /2312.03030

Autor: Xiaosen Wang, Kunyu Wang
Zusammenfassung: Deep Neural Network (DNN) ist anfällig für Verschiedene Diese Art von gegnerischen Beispielangriffen stellt eine große Bedrohung für sicherheitskritische Anwendungen dar. Unter ihnen haben gegnerische Patches aufgrund ihrer guten Anwendbarkeit bei der Täuschung von DNNs in der physischen Welt zunehmend Aufmerksamkeit erregt. bestehende Werke erzeugen jedoch oft Flecken bedeutungslosen Rauschens oder Musters, die sie für Menschen auffällig machen. Um dieses Problem anzugehen, untersuchen wir, wie man visuell realistische gegnerische Patches generiert, um DNNs zu täuschen. Zunächst analysieren wir, dass ein hochwertiger gegnerischer Patchrealistisch, ortsunabhängig und druckbar sein sollte, um in der physischen Welt eingesetzt zu werden. Basierend auf dieser Analyse schlagen wir einen effektiven Angriff namens VRAP vor, der visuell realistische gegnerische Patches generiert. Insbesondere beschränkt der VRAP-Algorithmus den Bildbereichauf die Nachbarschaft des realen Bildes, um die visuelle Authentizität des Bildes sicherzustellen, und optimiert den Bildbereich dort schlechteste Position Um die Positionsunabhängigkeit von Bildblöcken sicherzustellen, werden gleichzeitig Totalvarianzverlust und Gammatransformation verwendet, um die generierten Bildblöcke ohne Informationsverlust druckbar zu machen. Die empirische Auswertung des ImageNet-Datensatzes zeigt, dass der vorgeschlagene VRAP eine hervorragende Angriffsleistung in der digitalen Welt aufweist. Darüber hinaus können die generierten gegnerischen Patches als Graffiti oder Logos in der physischen Welt getarnt werden, um Deep-Modelle unbemerkt zu täuschen, was eine erhebliche Bedrohung für DNN-fähige Anwendungen darstellt.
Zusammenfassung: Tiefe neuronale Netze (DNNs) sind anfällig für verschiedene Arten von gegnerischen Beispielen und stellen eine enorme Bedrohung für sicherheitskritische Anwendungen dar. Unter diesen erregen gegnerische Patches aufgrund ihrer guten Anwendbarkeit zunehmend Aufmerksamkeit Täuschen Sie DNNs in der physischen Welt. Bestehende Arbeiten erzeugen jedoch häufig Patches mit bedeutungslosem Rauschen oder Mustern, wodurch sie für Menschen auffällig werden. Um dieses Problem anzugehen, untersuchen wir, wie man visuell realistische gegnerische Patches generiert, um DNNs zu täuschen. Zunächst analysieren wir, dass a Ein qualitativ hochwertiger gegnerischer Patch sollte realistisch, ortsunabhängig und druckbar sein, um in der physischen Welt eingesetzt werden zu können. Basierend auf dieser Analyse schlagen wir einen effektiven Angriff namens VRAP vor, um visuell realistische gegnerische Patches zu generieren. Insbesondere schränkt VRAP den Patch in der ein Umgebung eines realen Bildes, um die visuelle Realität sicherzustellen, optimiert den Patch an der schlechtesten Position hinsichtlich Positionsirrelevanz und nutzt Totalvarianzverlust sowie Gammatransformation, um den generierten Patch druckbar zu machen, ohne dass Informationen verloren gehen. Empirische Auswertungen des ImageNet-Datensatzes belegen dies Der vorgeschlagene VRAP weist eine hervorragende Angriffsleistung in der digitalen Welt auf. Darüber hinaus können die generierten gegnerischen Patches als Crawl oder Logo in der physischen Welt getarnt werden, um die Deep-Modelle unbemerkt zu täuschen, was erhebliche Bedrohungen für DNNs-fähige Anwendungen mit sich bringt.

5. Ist der Ego-Status alles, was Sie für das durchgängige autonome Fahren im offenen Regelkreis benötigen? (Ist der Ego-Status alles, was Sie für das durchgängige autonome Fahren im offenen Regelkreis benötigen?)

Titel: Ist der Ego-Zustand alles, was für ein durchgängiges autonomes Fahren mit offenem Regelkreis benötigt wird?
Link: https://arxiv.org/abs/2312.03031
Autor: Zhiqi Li, Zhiding Yu, Shiyi Lan, Jiahan Li, Jan Kautz, Tong Lu, Jose M. Alvarez
Bemerkungen:Fokus auf End-to-End Probleme beim autonomen Fahren; Achten Sie auf den verwendeten nuScenes-Datensatz; stellen Sie Github-Code bereit
Zusammenfassung: Durchgängiges autonomes Fahren hat sich in letzter Zeit zu einer vielversprechenden Forschungsrichtung entwickelt. aus der Full-Stack-Perspektive, um autonomes Fahren zu erreichen. In diesem Sinne folgen viele neuere Arbeiten der Open-Loop-Bewertungseinstellung auf nuScenes, um das Planungsverhalten zu untersuchen. In diesem Artikel befassen wir uns eingehender mit diesem Thema, führen eine ausführliche Analyse durch und enthüllen mehr über den Teufel, der im Detail steckt. Wir haben zunächst festgestellt, dass der nuScenes-Datensatz durch relativ einfache Fahrszenarien gekennzeichnet ist, was zu einer durchgängigen Unterauslastung der Wahrnehmungsinformationen in Terminalmodellen führt. Diese Modelle stützen sich bei der zukünftigen Pfadplanung in erster Linie auf den Zustand des Ego-Fahrzeugs. Zusätzlich zu den Einschränkungen des Datensatzes stellen wir fest, dass aktuelle Indikatoren die Planungsqualität nicht umfassend bewerten, was zu möglicherweise verzerrten Schlussfolgerungen aus bestehenden Benchmarks führt. Um dieses Problem anzugehen, führen wir eine neue Metrik ein, um zu bewerten, ob die vorhergesagte Flugbahn dem Pfad entspricht. Wir schlagen außerdem eine einfache Basislinie vor, mit der wettbewerbsfähige Ergebnisse erzielt werden können, ohne auf Wahrnehmungsanmerkungen angewiesen zu sein. Angesichts der aktuellen Einschränkungen bei Benchmarks und Metriken empfehlen wir der Community, die relevante populärwissenschaftliche Forschung neu zu bewerten und vorsichtig zu sein, ob die weitere Verfolgung modernster Techniken zu überzeugenden allgemeinen Schlussfolgerungen führen wird. Code und Modell sind verfügbar unter \url{https://github.com/NVlabs/BEV-Planner}Zusammenfassung: Durchgängiges autonomes Fahren hat sich kürzlich als vielversprechende Forschungsrichtung herausgestellt, die auf Autonomie aus einer Full-Stack-Perspektive abzielt. In diesem Sinne folgen viele der neuesten Arbeiten einer Open-Loop-Bewertungseinstellung auf nuScenes, um das Planungsverhalten zu untersuchen. In diesem Artikel gehen wir tiefer darauf ein Problem durch die Durchführung gründlicher Analysen und die Entmystifizierung weiterer Teufel im Detail. Wir haben zunächst beobachtet, dass der nuScenes-Datensatz, der durch relativ einfache Fahrszenarien gekennzeichnet ist, zu einer unzureichenden Nutzung von Wahrnehmungsinformationen in End-to-End-Modellen führt, die den Ego-Status einbeziehen, wie z Die Geschwindigkeit des Ego-Fahrzeugs. Diese Modelle stützen sich in der Regel hauptsächlich auf den Status des Ego-Fahrzeugs für die zukünftige Pfadplanung. Über die Einschränkungen des Datensatzes hinaus stellen wir auch fest, dass aktuelle Metriken die Planungsqualität nicht umfassend bewerten, was zu möglicherweise voreingenommenen Schlussfolgerungen aus vorhandenen führt Benchmarks. Um dieses Problem anzugehen, führen wir eine neue Metrik ein, um zu bewerten, ob die vorhergesagten Trajektorien der Straße entsprechen. Wir schlagen außerdem eine einfache Basislinie vor, mit der Wettbewerbsergebnisse erzielt werden können, ohne auf Wahrnehmungsanmerkungen angewiesen zu sein. Angesichts der aktuellen Einschränkungen für Benchmark und Metriken Wir empfehlen der Community, relevante aktuelle Forschungsergebnisse neu zu bewerten und vorsichtig zu sein, ob die fortgesetzte Verfolgung des neuesten Stands der Technik zu überzeugenden und universellen Schlussfolgerungen führen würde. Code und Modelle sind unter \url{https://github.com/NVlabs/BEV verfügbar -Planer

Verweise:

Guess you like

Origin blog.csdn.net/m0_38068876/article/details/134856905