CVPR 2022 | Zusammenfassung der umfassendsten über 25 Themenrichtungen und der neuesten 50 GAN-Artikel

Ein Mittagessen zum Mitnehmen, das zum Trendsetter an der Spitze der CV-Vision wird

 35 Themen! Zusammenfassung der vollständigsten GAN-Papiere im ICCV 2021

Über 110 Artikel! CVPR 2021 umfassendstes GAN-Papierkämmen

Über 100 Artikel! CVPR 2020 umfassendstes GAN-Papierkämmen 

Auf der jüngsten CVPR2022-Konferenz, einer Top-Visual-Konferenz, ist eine große Anzahl von GAN-basierten Artikeln erschienen, die häufig für verschiedene visuelle Aufgaben verwendet werden.

Die folgenden Papiere wurden klassifiziert und verpackt! Antworten Sie im Hintergrund auf  CVPR2022  (drücken Sie lange auf den roten Buchstaben, wählen Sie ihn aus und kopieren Sie ihn), um die Sammlung von Artikeln zu erhalten, die nach Ordnern klassifiziert und zusammengefasst sind. Fangen wir an! ! !

Es ist nicht einfach, das zu klären. Bitte lesen Sie den offiziellen Artikel, veröffentlichen Sie ihn erneut, teilen Sie ihn und schauen Sie sich Sanlian an. Ermutigen Sie den Herausgeber sehr! ! !

1. 3D

1、FLAG: Flussbasierte 3D-Avatar-Generierung aus spärlichen Beobachtungen

  • Um realistische und plausible Avatar-Posen zu erzeugen, beschränkt sich der von einem am Kopf montierten Gerät (HMD) auf diese Aufgabe angewendete Signalfluss normalerweise auf die Schätzung der Kopf- und Handpose.

  • Obwohl diese Signale wertvoll sind, stellen sie eine unvollständige Darstellung des menschlichen Körpers dar, was es schwierig macht, plausible virtuelle vollständige Körper zu generieren. Wir gehen diese Herausforderung an, indem wir flussbasierte generative Modelle von 3D-Menschen aus spärlichen Beobachtungen entwickeln, bei denen nicht nur eine bedingte Verteilung von 3D-Menschenposen erlernt wird, sondern auch eine probabilistische Zuordnung von Beobachtungen zu einem latenten Raum, aus dem auch eine plausible Pose hervorgeht wie verschiedene Gelenke erlernt werden. Gewissheitsschätzungen.

6f417d5e1ce844322575e57d8ca9ba4e.png

2、3D-Formvariations-Autoencoder-latente Entwirrung über Mini-Batch-Merkmalsaustausch für Körper und Gesichter

  • Das Erlernen entwirrter, interpretierbarer und strukturierter latenter Darstellungen in generativen 3D-Modellen von Gesicht und Körper bleibt ein offenes Problem. Dieses Problem ist besonders akut, wenn eine Kontrolle über Identitätsmerkmale erforderlich ist.

  • In diesem Artikel wird ein intuitiver und effizienter selbstüberwachter Ansatz zum Trainieren von 3D-Formvariations-Autoencodern (VAEs) vorgeschlagen, die latente Darstellungen von Identitätsmerkmalen trennen können. Um die Mini-Batch-Generierung durch den Austausch beliebiger Merkmale zwischen verschiedenen Formen zu verwalten, kann eine Verlustfunktion definiert werden, die bekannte Unterschiede und Ähnlichkeiten in latenten Darstellungen ausnutzt. Experimentelle Ergebnisse zeigen, dass es den modernsten latenten Entkopplungsmethoden zwar nicht gelingt, Identitätsmerkmale von Gesichtern und Körpern zu entwirren, die vorgeschlagene Methode jedoch die Erzeugung dieser Merkmale korrekt entkoppelt und gleichzeitig gute Darstellungs- und Rekonstruktionsfähigkeiten beibehält.

  • Code und vorab trainierte Modelle sind unter github.com/simofoti/3DVAE-SwapDisentangled verfügbar

583442dcc137904d7dda3d5d01afbffa.png

2. GAN-Verbesserung

3、Polaritätsprobenahme: Qualitäts- und Diversitätskontrolle vorab trainierter generativer Netzwerke über singuläre Werte

  • Wir schlagen Polarity Sampling vor, eine Plug-and-Play-Methode zur Steuerung der Generationsqualität und -vielfalt vorab trainierter tiefer generativer Netzwerke (DGNs). In diesem Artikel werden quantitative und qualitative Ergebnisse von Verbesserungen der Gesamtgenerierungsqualität (z. B. im Hinblick auf die Frechet-Inception-Distanz) einiger hochmoderner DGNs, einschließlich StyleGAN3, BigGAN-deep, NVAE, für verschiedene bedingte und bedingungslose Bilder vorgestellt Generierungsaufgaben. Insbesondere aktualisiert die Polaritätsstichprobe die FID-Leistung von StyleGAN2 im FFHQ-Datensatz auf 2,57, die Leistung von StyleGAN2 im LSUN-Autodatensatz auf FID 2,27 und die FID-Leistung von StyleGAN3 im AFHQv2-Datensatz auf 3,95.

b3b8689e6e782c79f034227cce372a22.png

4、Feature Statistics Mixing Regularisierung für generative gegnerische Netzwerke

  • In Generative Adversarial Networks ist die Verbesserung des Diskriminators einer der Schlüssel zur generativen Leistung. In diesem Artikel wird der Diskriminator-Bias untersucht und untersucht, ob die generative Leistung durch Debiasing verbessert werden kann. Empirische Beweise zeigen, dass der Diskriminator empfindlich auf den Stil des Bildes reagiert, beispielsweise auf Textur und Farbe. Als Abhilfe wird die Feature Statistics Mixing Regularization (FSMR) vorgeschlagen, die dazu führt, dass die Vorhersagen des Diskriminators gegenüber dem Stil des Eingabebildes invariant bleiben. Insbesondere werden Hybridmerkmale der Original- und Referenzbilder im Merkmalsraum des Diskriminators generiert und eine Regularisierung angewendet, sodass die Vorhersagen der Hybridmerkmale mit denen des Originalbilds übereinstimmen.

  • Umfangreiche Experimente zeigen, dass diese Regularisierung die Stilempfindlichkeit verringert und die Leistung verschiedener GAN-Architekturen verbessert. Darüber hinaus verbessert die Hinzufügung von FSMR zu kürzlich vorgeschlagenen augmentationsbasierten GAN-Methoden die Bildqualität weiter.

  • https://github.com/naver-ai/FSMR

c68d66e3e733e0771af8719b179d284a.png

3. Frisurenbearbeitung

5、Haarspange: Gestalten Sie Ihr Haar anhand von Text und Referenzbild

  • Das Bearbeiten von Frisuren ist ein interessantes und herausforderndes Problem in der Bildverarbeitung und Grafik. Viele bestehende Methoden erfordern sorgfältig gezeichnete Skizzen oder Masken als bedingte Eingaben für die Bearbeitung, aber diese Interaktionen sind weder einfach noch effizient. Um Benutzer von dem mühsamen Interaktionsprozess zu befreien, schlägt dieses Papier einen neuen interaktiven Haarbearbeitungsmodus vor, der Haarattribute basierend auf vom Benutzer bereitgestellten Texten oder Referenzbildern einzeln oder gemeinsam bearbeiten kann.

  • Zu diesem Zweck werden Bild- und Textbedingungen in einem gemeinsamen Einbettungsraum codiert und ein einheitliches Haarbearbeitungs-Framework vorgeschlagen, indem die leistungsstarken Bild-zu-Text-Darstellungsfunktionen des Contrastive Language-Image Pretrained (CLIP)-Modells genutzt werden. Mit gut gestalteten Netzwerkstrukturen und Verlustfunktionen kann das Framework eine hochwertige Bearbeitung entkoppelt durchführen. Umfangreiche Experimente belegen die Überlegenheit der Methode hinsichtlich der Betriebsgenauigkeit, der visuellen Authentizität der bearbeiteten Ergebnisse und der Beibehaltung irrelevanter Attribute.

  • https://github.com/wty-ustc/HairCLIP

4. Stilmigration

6、Exakte Merkmalsverteilungsanpassung für die Übertragung willkürlicher Stile und die Domänengeneralisierung

  • Arbitrary Style Transfer (AST) und Domain Generalization (DG) sind wichtige, aber anspruchsvolle Vision-Learning-Aufgaben, die als Feature-Distribution-Matching-Probleme formuliert werden können. Unter der Annahme der Gaußschen Merkmalsverteilung stimmen herkömmliche Methoden zur Merkmalsverteilungsanpassung normalerweise mit dem Mittelwert und der Standardabweichung von Merkmalen überein. Allerdings sind die Merkmalsverteilungen von realen Daten in der Regel viel komplexer als Gaußsche Verteilungen, können nicht genau mit nur Statistiken erster und zweiter Ordnung abgeglichen werden, und der Verteilungsabgleich mit Statistiken höherer Ordnung ist rechenintensiv.

  • Diese Arbeit ist die erste, in der vorgeschlagen wird, ein exaktes Histogramm-Matching (EFDM) durchzuführen, indem die empirischen kumulativen Verteilungsfunktionen (eCDF) von Bildmerkmalen genau abgeglichen werden, und die vorgeschlagene Methode wird bei verschiedenen AST- und DG-Aufgaben effektiv verifiziert.

  • https://github.com/YBZh/EFDM

443903edbe0ed005d56c51cdba3468b2.png

7、Zeigen Sie mir was und sagen Sie mir wie: Videosynthese durch multimodale Konditionierung

  • Die meisten bedingten Videosynthesemethoden verwenden eine einzige Modalität als Bedingung, was erhebliche Einschränkungen mit sich bringt. Beispielsweise sind Modelle, die auf Bildern konditioniert sind, um bestimmte, von Benutzern erwartete Bewegungstrajektorien zu erzeugen, problematisch, da es keine Möglichkeit gibt, Bewegungsinformationen bereitzustellen. Im Gegensatz dazu können sprachliche Informationen die gewünschte Aktion beschreiben, den Inhalt des Videos jedoch nicht genau definieren.

  • Basierend auf Text und Bildern, die gemeinsam oder getrennt bereitgestellt werden, schlägt diese Arbeit ein multimodales Videogenerierungs-Framework vor. Nutzen Sie die jüngsten Fortschritte bei quantisierten Videodarstellungen und wenden Sie bidirektionale Transformatoren mit mehreren Modalitäten als Eingabe an, um diskrete Videodarstellungen vorherzusagen. Um die Videoqualität und -konsistenz zu verbessern, werden ein neues, durch Selbstlernen trainiertes Video-Token und ein verbesserter Maskenvorhersagealgorithmus zum Abtasten von Video-Tokens vorgeschlagen. Die Texterweiterung wird eingeführt, um die Robustheit der Textdarstellung und die Vielfalt der generierten Videos zu verbessern. Frames können verschiedene Sehmodalitäten enthalten, z. B. Segmentierungsmasken, Zeichnungen und teilweise verdeckte Bilder. Es können Sequenzen generiert werden, die viel länger sind als diejenigen, die für das Training verwendet werden.

  • Darüber hinaus kann das Modell visuelle Informationen extrahieren, die durch Texthinweise angedeutet werden, beispielsweise „Ein Objekt im Bild bewegt sich nach Nordosten“, und ein entsprechendes Video generieren. Die besten Generierungsergebnisse werden erzielt, wenn drei öffentliche Datensätze und ein neu gesammelter Datensatz mit Gesichtsattributen ausgewertet werden.

125b53f24b0a0873418825b2bd0af030.png

8、Style-ERD: Responsive und kohärente Online-Bewegungsstilübertragung

  • Die Übertragung von Bewegungsstilen ist ein gängiger Ansatz zur Bereicherung von Charakteranimationen, bei dem Bewegungen normalerweise stückweise in einer Offline-Umgebung verarbeitet werden. Aber für Online-Animationsanwendungen, wie zum Beispiel Echtzeit-Avatar-Animationen aus der Bewegungserfassung, müssen Bewegungen als Stream mit minimaler Latenz verarbeitet werden.

  • Diese Arbeit implementiert Style-ERD, eine flexible und hochwertige Übertragungsmethode für Bewegungsstile, um Bewegung online mithilfe der Encoder-Recurrent-Decoder-Struktur und eines Diskriminators zu stilisieren, der Merkmalsaufmerksamkeit und zeitliche Aufmerksamkeit kombiniert. Die Methode verwendet ein einheitliches Modell, um Bewegung in mehrere Zielstile zu stilisieren. Obwohl die Methode auf die Online-Umgebung abzielt, übertrifft sie frühere Offline-Methoden in Bezug auf Bewegungsrealismus und Ausdruckskraft des Stils und verbessert die Laufzeiteffizienz.

93ff71e6b1912b1c9375efd347da54ce.png

9、Pastiche Master: Vorbildbasierte hochauflösende Porträtstilübertragung

  • Aktuelle Arbeiten zu StyleGAN zeigen, dass Transferlernen mit begrenzten Daten für die Erstellung künstlerischer Porträts sehr gut funktioniert.

  • In diesem Artikel wird DualStyleGAN vorgeschlagen, um eine anspruchsvollere, auf Referenzbeispielen basierende hochauflösende Übertragung von Porträtstilen zu untersuchen, mit der der duale Stil der ursprünglichen Gesichtsdomäne und der künstlerischen Porträtdomäne flexibel gesteuert werden kann. Im Gegensatz zu StyleGAN bietet DualStyleGAN eine natürliche Art der Stilübertragung, indem es den Inhalt und Stil von Porträts mit einem „inneren Stilpfad“ bzw. einem neuen „äußeren Stilpfad“ charakterisiert. Sorgfältig gestaltete äußere Stilpfade ermöglichen es Modellen, Farben und komplexe Strukturstile schichtweise anzupassen, um Referenzstile präzise zu reproduzieren.

  • Darüber hinaus wird ein progressives Feinabstimmungsschema eingeführt, um den Generierungsraum des Modells auch bei den oben genannten Änderungen an der Netzwerkarchitektur reibungslos auf die Zieldomäne zu übertragen.

  • Experimente zeigen, dass DualStyleGAN modernste Methoden in Bezug auf hochwertige Porträtstilübertragung und flexible Stilkontrolle übertrifft. https://github.com/williamyang1991/DualStyleGAN

b3a12d1b7c8cebb7a5b0a9b2b93d323a.png

10、CLIPstyler: Bildstilübertragung mit einer einzigen Textbedingung

  • Bestehende neuronale Stilübertragungsmethoden müssen auf das Stilbild verweisen, um die Texturinformationen des Stilbilds auf das Inhaltsbild zu übertragen. In vielen praktischen Situationen verfügen Benutzer jedoch möglicherweise nicht über Referenzstilbilder, sind aber dennoch daran interessiert, Stile durch Vorstellung zu übertragen.

  • Um solche Anwendungen zu handhaben, wird ein neues Framework vorgeschlagen, das die Stilübertragung „ohne“ Stilbilder, sondern nur textuelle Beschreibungen von Stilen ermöglicht. Mithilfe des vorab trainierten Text-Bild-Einbettungsmodells von CLIP demonstrieren wir die Stilisierung von Inhaltsbildern, die nur auf einem einzelnen Text basieren. Schlagen Sie einen Text-Bild-Matching-Verlust im Patch-Stil mit Multi-View-Erweiterung für eine realistische Texturübertragung vor.

5a78c0cdb82c447031928b93caaf9147.png


5. Transformatoren kombinieren

11、TransEditor: Transformer-basiertes Dual-Space-GAN für hochgradig kontrollierbare Gesichtsbearbeitung

  • Jüngste Fortschritte wie StyleGAN haben die Entwicklung kontrollierbarer Gesichtsbearbeitungstechniken erleichtert. Dennoch gelingt es diesen Methoden insbesondere bei komplexen Attributen noch immer nicht, plausible Bearbeitungsergebnisse mit hoher Kontrollierbarkeit zu erzielen.

  • Diese Studie unterstreicht die Bedeutung von Interaktionen in Dual-Space-GANs für eine besser kontrollierbare Bearbeitung. Schlagen Sie TransEditor vor, ein neues Transformer-basiertes Framework zur Verbesserung dieser Interaktion. Darüber hinaus wurde eine neue Bearbeitungs- und Inverse-Mapping-Strategie entwickelt, um zusätzliche Bearbeitungsflexibilität zu bieten. Umfangreiche Experimente belegen die Überlegenheit des vorgeschlagenen Frameworks in Bezug auf Bildqualität und Bearbeitungsmöglichkeiten und demonstrieren die Wirksamkeit von TransEditor bei der hochgradig kontrollierbaren Gesichtsbearbeitung.

  • https://github.com/BillyXYB/TransEditor

73b14a90def2021ca9dcdbea6df14891.png

12、Styleformer: Transformatorbasierte generative gegnerische Netzwerke mit Style Vector

  • In diesem Artikel wird Styleformer vorgeschlagen, der Bilder basierend auf dem Stilvektor der Transformer-Struktur synthetisiert, die modifizierte Transformer-Struktur effektiv anwendet (z. B. durch Hinzufügen von Multi-Head-Aufmerksamkeit und Prelayer-Normalisierung) und ein neues Aufmerksamkeitsstil-Injektionsmodul einführt, nämlich A Stilmodulations- und Demodulationsmethode zur Manipulation der Selbstaufmerksamkeit. Die neue Generatorkomponente hat Vorteile gegenüber den Mängeln von CNNs, kann Abhängigkeiten über große Entfernungen bewältigen und die globale Struktur von Objekten verstehen.

  • Es werden zwei Methoden zur Erzeugung hochauflösender Bilder mit Styleformer vorgeschlagen. Erstens ermöglicht die Anwendung von Linformer auf dem Gebiet der visuellen Synthese (Styleformer-L), dass Styleformer Bilder mit höherer Auflösung mit Verbesserungen bei Rechenkosten und Leistung generiert. Dies ist das erste Beispiel für die Bildgenerierung mit Linformer. Zweitens erfasst Styleformer durch die Kombination von Styleformer und StyleGAN2 (Styleformer-C) zur effizienten Generierung hochauflösender synthetischer Szenen weitreichende Abhängigkeiten zwischen Komponenten. Mit diesen Optimierungen erreicht Styleformer sowohl bei Einzelobjekt- als auch bei Mehrobjekt-Datensätzen eine Leistung, die mit dem Stand der Technik vergleichbar ist. Darüber hinaus zeigen die Ergebnisse der Stilmischung und der Aufmerksamkeitskartenvisualisierung die Stärke und Effizienz des Modells.

2297e3d41ea8b803cc894cc645d9062f.png

6. Gesichtsgenerierung

13、Spärliche bis dichte dynamische 3D-Gesichtsausdruckserzeugung

  • In diesem Artikel wird ein Schema zur Erzeugung dynamischer 3D-Gesichtsausdrücke basierend auf neutralen 3D-Gesichts- und Ausdrucks-Tags vorgeschlagen. Dies beinhaltet die Lösung zweier Teilprobleme: (i) Modellierung der zeitlichen Dynamik von Ausdrücken und (ii) Verformung des neutralen Netzes, um ausdrucksstarke Gegenstücke zu erhalten. Die zeitliche Entwicklung von Ausdrücken wird durch die Bewegung einer Reihe spärlicher 3D-Schlüsselpunkte dargestellt, deren Generierung durch Training eines mannigfaltigwertigen GAN (Motion3DGAN) gelernt wird.

  • Um das Ausdrucksnetz zu generieren, wird ein Sparse2Dense-Netzdecoder (S2D-Dec) trainiert. Dies ermöglicht ein Verständnis dafür, wie sich die Bewegung einer spärlichen Menge von Schlüsselpunkten auf die Verformung der gesamten Gesichtsoberfläche auswirkt, unabhängig von der Identität. Experimentelle Ergebnisse zu den CoMA- und D3DFACS-Datensätzen zeigen, dass unser Schema gegenüber früheren Lösungen erhebliche Verbesserungen sowohl bei der Erzeugung dynamischer Ausdrücke als auch bei der Netzrekonstruktion mit sich bringt und gleichzeitig eine gute Generalisierungsfähigkeit für unsichtbare Daten beibehält.07e331a4b1934fc802521578a26f1953.pngf43d2a806fed189d7372c22e4b8e9809.png

7. Lernen mit wenigen Stichproben

14、Generative Modellanpassung mit wenigen Schüssen durch entspannte räumliche Strukturausrichtung

  • Das Training generativer gegnerischer Netzwerke (GANs) mit begrenzten Daten war eine herausfordernde Aufgabe. Eine Lösung besteht darin, mit einem GAN zu beginnen, das auf einer großen Quelldomäne trainiert wurde, und es mit einer kleinen Anzahl von Stichproben an die Zieldomäne anzupassen, was als generative Modellanpassung mit wenigen Schüssen bezeichnet wird.

  • Bestehende Methoden neigen jedoch dazu, bei extrem kleinen Stichprobengrößen (weniger als 10) eine Überanpassung der Modelle vorzunehmen und zusammenzubrechen. Um dieses Problem anzugehen, wird eine RSSA-Methode (Relaxed Spatial Structural Alignment) zur Kalibrierung von Objektgenerierungsmodellen vorgeschlagen. Es wird ein domänenübergreifender Konsistenzverlust räumlicher Strukturen entworfen, einschließlich Konsistenzverlusten durch Autokorrelation und Interferenzkorrelation. Es hilft, die räumlichen Strukturinformationen zwischen synthetischen Bildpaaren von Quell- und Zieldomänen auszurichten. Um die domänenübergreifende Ausrichtung zu lockern, wird der ursprüngliche latente Raum des generativen Modells in einen Unterraum komprimiert. Aus Unterräumen erzeugte Bildpaare werden näher zusammengezogen. Qualitative und quantitative Experimente belegen die Wirksamkeit der Methode.

  • Quellcode: https://github.com/StevenShaw1999/RSSA

2569955026c0ec29173cbb184b10ba42.png

8. Tiefenvervollständigung

15、RGB-Depth Fusion GAN für die Tiefenvervollständigung im Innenbereich

  • Die Tiefenkarte übernimmt viele nachgelagerte Sichtaufgaben, weist jedoch unvollständige Einschränkungen auf, sodass es immer mehr Methoden zur Tiefenvervollständigung gibt, um dieses Problem zu lindern. Während die meisten vorhandenen Methoden genaue, dichte Tiefenkarten aus spärlich und gleichmäßig abgetasteten Tiefenkarten generieren können, sind sie nicht für die Ergänzung großer kontinuierlicher Regionen mit fehlenden Tiefenwerten geeignet.

  • In diesem Artikel entwerfen wir ein neuartiges End-to-End-Fusionsnetzwerk mit zwei Zweigen, das ein Paar RGB- und unvollständige Tiefenbilder als Eingabe verwendet, um eine dichte und vollständige Tiefenkarte vorherzusagen. Der erste Zweig verwendet eine Encoder-Decoder-Struktur, um lokale dichte Tiefenwerte aus Rohtiefenkarten mithilfe lokaler Führungsinformationen, die aus RGB-Bildern extrahiert wurden, zu regressieren. In einem anderen Zweig wird ein RGB-Tiefenfusions-GAN vorgeschlagen, um RGB-Bilder in feinkörnige Texturtiefenkarten umzuwandeln. Ein adaptives Fusionsmodul namens W-AdaIN wird verwendet, um Merkmale zwischen den beiden Zweigen zu verbreiten, und ein Konfidenzfusionskopf wird angeschlossen, um die beiden Ausgänge der Zweige zu fusionieren, um die endgültige Tiefenkarte zu erhalten.

  • Umfangreiche Experimente mit NYU-Depth V2 und SUN RGB-D zeigen, dass die vorgeschlagene Methode die Leistung der Tiefenvervollständigung erheblich verbessert.

b4f735dc368be65602993d6110e5db75.png

9. Videogenerierung

16、Spielbare Umgebungen: Videomanipulation in Raum und Zeit

  • In diesem Artikel werden sogenannte „Playable Environments“ vorgestellt: eine neue Darstellung zur Erzeugung und Manipulation interaktiver Videos in Raum und Zeit. Das neue Framework verwendet ein einzelnes Bild zur Inferenzzeit und ermöglicht es Benutzern, Objekte in 3D zu bewegen und gleichzeitig Videos zu generieren, indem eine Abfolge gewünschter Aktionen bereitgestellt wird. Diese Handlungen werden unbeaufsichtigt erlernt. Die Kamera kann gesteuert werden, um den gewünschten Blickwinkel zu erhalten.

  • Die Methode erstellt für jedes Bild einen Umgebungszustand, der durch das vorgeschlagene Bewegungsmodul manipuliert und durch Volumenrendering wieder in den Bildraum dekodiert werden kann. Um unterschiedliche Erscheinungsbilder von Objekten zu unterstützen, wird das neuronale Strahlungsfeld durch stilbasierte Modulation erweitert. Die Methode wird anhand einer Sammlung verschiedener monokularer Videos trainiert und erfordert lediglich geschätzte Kameraparameter und 2D-Objektpositionen. Um anspruchsvolle Maßstäbe zu setzen, werden zwei große Videodatensätze mit Kamerabewegung eingeführt. Die Methode ermöglicht mehrere kreative Anwendungen, die mit früheren Arbeiten zur Videosynthese nicht möglich waren, einschließlich abspielbarer 3D-Videogenerierung, Stilisierung und Bearbeitungsvorgänge.

3425f7aa1c1bdb275a4e919ae18fc59c.png

17、StyleGAN-V: Ein kontinuierlicher Videogenerator mit dem Preis, der Bildqualität und den Vorteilen von StyleGAN2

  • Videos können kontinuierliche Ereignisse aufweisen, die meisten Videosynthese-Frameworks verarbeiten sie jedoch zeitlich diskret. Diese Arbeit erweitert das Paradigma neuronaler Darstellungen, um einen zeitkontinuierlichen Videogenerator zu erstellen, der die zeitkontinuierlichen Signalinformationen von Videos berücksichtigt.

  • Zu diesem Zweck werden zunächst kontinuierliche Bewegungsdarstellungen durch positionseingebettete Aufnahmen entworfen. Anschließend wird das Problem des Trainings an sehr spärlichen Videos untersucht und gezeigt, dass ein guter Generator mit nur 2 Bildern pro Clip erlernt werden kann. Anschließend wird die traditionelle Bild-/Video-Diskriminatorpaarung überdacht und ein Ensemble-Diskriminator entworfen, um zeitliche Informationen durch einfache Verkettung der Merkmale von Frames zu aggregieren. Dies reduziert die Trainingskosten und liefert ein reichhaltigeres Lernsignal für den Generator, wodurch es erstmals möglich ist, direkt auf 10242 Videos zu trainieren.

  • Die Methode baut ein Modell auf StyleGAN2 auf, trainiert mit derselben Auflösung und erzielt dabei nahezu die gleiche Bildqualität bei nur 5 % höheren Kosten. Darüber hinaus hat der latente Raum ähnliche Eigenschaften und die Methode kann räumliche Operationen zeitlich verbreiten. Beliebig lange Videos können mit beliebig hohen Bildraten generiert werden, während frühere Arbeiten Schwierigkeiten hatten, 64 Bilder mit einer festen Rate zu erzeugen.

  • Projektwebsite: https://universome.github.io/stylegan-v

ae549ee8d5a75a96f37079ccb4a056d1.png

10. Lautsprechergesteuert

18、FaceFormer: Sprachgesteuerte 3D-Gesichtsanimation mit Transformern

  • Die sprachgesteuerte 3D-Gesichtsdynamisierung ist aufgrund der potenziell komplexen Geometrie menschlicher Gesichter und der begrenzten Verfügbarkeit audiovisueller 3D-Daten eine Herausforderung. Frühere Arbeiten konzentrieren sich in der Regel auf das Erlernen von Funktionen auf Telefonebene für kurze Audiofenster mit begrenztem Kontext, was gelegentlich zu ungenauen Lippenbewegungen führt.

  • Um diese Einschränkung zu beheben, wird ein Transformer-basiertes autoregressives Modell FaceFormer vorgeschlagen, das den langfristigen Audiokontext kodiert und eine Folge von 3D-Gesichtsnetzen autoregressiv vorhersagt.

  • Um der Datenknappheit entgegenzuwirken, werden selbstüberwachte, vorab trainierte Sprachdarstellungen integriert. Darüber hinaus werden zwei voreingenommene Aufmerksamkeitsmechanismen entwickelt, die für diese spezifische Aufgabe gut geeignet sind, darunter voreingenommene modalübergreifende Mehrkopfaufmerksamkeit (MH) und voreingenommene kausale MH-Selbstaufmerksamkeit mit einer periodischen Positionskodierungsstrategie. Ersteres richtet Audio-Bewegungsmuster effektiv aus, während letzteres die Möglichkeit bietet, auf längere Audiosequenzen zu verallgemeinern. Umfangreiche Experimente und wahrnehmungsbezogene Nutzerstudien zeigen, dass die Methode den bisherigen Stand der Technik übertrifft.

a07c79255b7eadedaf5f89bbbd8ded46.png

19、Tiefenbewusstes generatives kontradiktorisches Netzwerk für die Talking-Head-Videogenerierung

  • Die Sprechergenerierung kann Gesichtsvideos mit Identitäts- und Poseninformationen aus einem bestimmten Quellbild bzw. Fahrvideo synthetisieren. Bestehende Arbeiten basieren stark auf dem Erlernen von 2D-Darstellungen (z. B. Aussehen und Bewegung) aus Eingabebildern. Für diese Aufgabe ist jedoch eine dichte 3D-Gesichtsgeometrie (z. B. Pixeltiefe) wichtig, da sie für uns besonders vorteilhaft ist, um intrinsisch genaue 3D-Gesichtsstrukturen zu erzeugen und verrauschte Informationen von potenziell unübersichtlichen Hintergründen zu unterscheiden. Allerdings sind dichte geometrische 3D-Anmerkungen für Videos unerschwinglich teuer und für diese Videogenerierungsaufgabe im Allgemeinen nicht geeignet.

  • In diesem Artikel wird eine selbstüberwachte Geometrie-Lernmethode vorgestellt, die automatisch dichte 3D-Geometrie (d. h. Tiefe) aus Gesichtsvideos wiederherstellen kann, ohne dass teure 3D-Anmerkungsdaten erforderlich sind. Basierend auf den erlernten dichten Tiefenkarten werden sie genutzt, um spärliche Schlüsselpunkte im Gesicht abzuschätzen, die Schlüsselbewegungen des menschlichen Kopfes erfassen. Tiefe wird auch verwendet, um die modalübergreifende Aufmerksamkeit (d. h. Aussehen und Tiefe) für die 3D-Wahrnehmung zu erlernen, um die Erzeugung von Bewegungsfeldern zu steuern, um Quellbilddarstellungen zu verzerren. Alle diese Beiträge bilden ein neues tiefenbewusstes generatives kontradiktorisches Netzwerk (DaGAN). Umfangreiche Experimente zeigen, dass die vorgeschlagene Methode äußerst realistische menschliche Gesichter erzeugen und auch bei unsichtbaren Gesichtern bemerkenswerte Ergebnisse erzielen kann.

a35b9c5fe228d2944d2f77e4706dea72.png

11. Bildbearbeitung

20、High-Fidelity-GAN-Inversion für die Bearbeitung von Bildattributen

  • Es wird ein neues inverses Mapping-Framework für ein generatives gegnerisches Netzwerk (GAN) mit hoher Wiedergabetreue vorgeschlagen, das die Bearbeitung von Attributen ermöglicht und gleichzeitig bildspezifische Details wie Hintergrund, Erscheinungsbild und Beleuchtung beibehält.

  • Wir analysieren zunächst die Herausforderung der inversen GAN-Zuordnung mit hoher Wiedergabetreue aus der Perspektive der verlustbehafteten Datenkomprimierung. Aufgrund der niedrigen Bitrate des latenten Codes war es bei früheren Arbeiten schwierig, Details mit hoher Wiedergabetreue in rekonstruierten und bearbeiteten Bildern beizubehalten. Durch Erhöhen der Größe des latenten Codes kann die Genauigkeit der inversen GAN-Zuordnung verbessert werden, allerdings auf Kosten einer schlechten Bearbeitbarkeit.

  • Um die Bildtreue zu verbessern, ohne die Bearbeitbarkeit zu beeinträchtigen, wird ein Ansatz zur Verzerrungsberatung vorgeschlagen, bei dem die Verzerrungskarte als Referenz für die hochauflösende Rekonstruktion verwendet wird. Bei DCI (Distortion Consultation Inversion) wird die Verzerrungskarte zunächst auf den Latentcode mit hoher Rate projiziert, und dann werden die Informationen des Latentcodes durch die Fusion weiterer Details ergänzt. Um eine Bearbeitung mit hoher Wiedergabetreue zu erreichen, wird ein Adaptive Distortion Alignment (ADA)-Modul eines selbstüberwachten Trainingsschemas vorgeschlagen, das die Lücke zwischen bearbeiteten und invers zugeordneten Bildern schließt.

  • Umfangreiche Experimente zeigen deutliche Verbesserungen sowohl bei der inversen Abbildung als auch bei der Bearbeitungsqualität. https://tengfeiwang.github.io/HFGI/

6cb2a180360edde82d3b68886665d341.png

21、Attributgruppenbearbeitung für eine zuverlässige Bilderzeugung mit wenigen Aufnahmen

  • Die Generierung von Bildern mit wenigen Aufnahmen ist selbst mit hochmodernen generativen gegnerischen Netzwerken (GANs) eine anspruchsvolle Aufgabe. Aufgrund des instabilen Trainingsprozesses von GAN und der begrenzten Trainingsdaten sind die generierten Bilder häufig von geringer Qualität und geringer Diversität.

Diese Arbeit schlägt einen neuen „bearbeitungsbasierten“ Ansatz, Attribute Group Editing (AGE), für die Erzeugung von Bildern mit wenigen Aufnahmen vor. Die Idee dahinter ist, dass jedes Bild eine Sammlung von Attributen ist und die Bearbeitungsrichtung eines bestimmten Attributs für alle Kategorien gleich ist. AGE untersucht in GANs erlernte interne Darstellungen und identifiziert semantisch bedeutsame Richtungen.

Insbesondere werden Klasseneinbettungen, d. h. latente Mittelwertvektoren aus bestimmten Kategorien, zur Darstellung kategoriebezogener Attribute verwendet, während kategorieunabhängige Attribute durch den Unterschied zwischen Beispieleinbettungen und Klasseneinbettungen durch Sparse Dictionary Learning gelernt werden. Bei einem auf bekannten Kategorien trainierten GAN ist es möglich, verschiedene Bilder unsichtbarer Kategorien zu synthetisieren, indem kategorieunabhängige Attribute bearbeitet werden, während kategorieabhängige Attribute unverändert bleiben. Ohne Umschulung des GAN generiert AGE nicht nur realistischere und vielfältigere Bilder für datenbegrenzte Downstream-Vision-Anwendungen, sondern ermöglicht auch eine kontrollierbare Bildbearbeitung mit interpretierbarer klassenunabhängiger Ausrichtung.

  • https://github.com/UniBester/AGE

3b61f384ab91825c89d2c890b9056ad7.png

12. Bildbearbeitung – Inverse Mapping

22、HyperInverter: Verbesserung der StyleGAN-Inversion über Hypernetwork

  • https://di-mi-ta.github.io/HyperInverter/

  • In den letzten Jahren wurden aufgrund der Erforschung und Nutzung des latenten Raums von GANs erstaunliche Fortschritte bei der Bildverarbeitung in der realen Welt erzielt. Die inverse GAN-Zuordnung ist der erste Schritt in dieser Denkrichtung und zielt darauf ab, reale Bilder latenten Codes zuzuordnen. Leider können die meisten vorhandenen GAN-Inverse-Mapping-Methoden mindestens eine der drei unten aufgeführten Anforderungen nicht erfüllen: hohe Rekonstruktionsqualität, Bearbeitbarkeit und schnelle Inferenz.

  • In diesem Papier wird eine neue zweistufige Strategie vorgeschlagen, die alle Anforderungen gleichzeitig erfüllt. In der ersten Stufe wird ein Encoder trainiert, um das Eingabebild dem StyleGAN2 W-Raum zuzuordnen, der sich nachweislich hervorragend bearbeitbar, aber von geringerer Rekonstruktionsqualität unterscheidet. In der zweiten Stufe wird die Rekonstruktionsfähigkeit der Anfangsstufe durch die Nutzung des Hypernetzwerks zur Wiederherstellung der verlorenen Informationen während des inversen Kartierungsprozesses ergänzt. Dank der hervorragenden Editierbarkeit aufgrund des Hypernetwork-Zweigs und der im W-Raum durchgeführten inversen Abbildung ergänzen sich diese beiden Schritte, um eine hohe Rekonstruktionsqualität zu erzielen. Die Methode ist vollständig Encoder-basiert, sodass die Inferenz schnell erfolgt. Umfangreiche Experimente an zwei anspruchsvollen Datensätzen zeigen die Überlegenheit der Methode.

dab20c852f7dcd9addb03e58645f3889.png

23、HyperStyle: StyleGAN-Inversion mit HyperNetworks für die Bearbeitung echter Bilder

  • https://yuval-alaluf.github.io/hyperstyle/

  • Die inverse Abbildung realer Bilder in den latenten Raum von StyleGAN ist ein intensiv untersuchtes Problem. Allerdings bleibt die Anwendung vorhandener Methoden auf realistische reale Szenarien aufgrund des inhärenten Kompromisses zwischen Rekonstruktion und Bearbeitbarkeit eine Herausforderung: Bereiche des latenten Raums, die reale Bilder genau darstellen können, leiden häufig unter einer Verschlechterung der semantischen Kontrolle. Einige Arbeiten schlagen eine Abhilfe durch eine Feinabstimmung des Generators vor, aber dieses Feinabstimmungsschema ist für den allgemeinen Gebrauch unpraktisch, da es eine lange Trainingsphase für jedes neue Bild erfordert.

  • Diese Arbeit stellt diesen Ansatz für Encoder-basiertes inverses Mapping vor und schlägt HyperStyle vor, ein Hypernetzwerk, das lernt, StyleGAN-Gewichte zu modulieren, um ein bestimmtes Bild in einem bearbeitbaren Bereich des latenten Raums besser darzustellen. Eine einfache Modulationsmethode erfordert das Training eines Hypernetzwerks mit mehr als 3 Milliarden Parametern. Dies wird durch sorgfältiges Netzwerkdesign reduziert, um mit vorhandenen Encodern konsistent zu sein. HyperStyle erzeugt Rekonstruktionen, die mit Optimierungstechniken vergleichbar sind, mit nahezu Echtzeit-Inferenzfähigkeiten von Encodern. Abschließend demonstriert der Artikel die Wirksamkeit von HyperStyle in mehreren Anwendungsszenarien außerhalb der inversen Mapping-Aufgabe, einschließlich der Bearbeitung von Bildern außerhalb der Domäne, die während des Trainings nie gesehen wurden.

8bb4a9aace7d2874300c46ed74d603a6.png

24、Stiltransformator für Bildinvertierung und -bearbeitung

  • Bestehende inverse Mapping-Methoden für GANs können nicht gleichzeitig einen latenten Coderaum für zuverlässige Rekonstruktion und flexible Bearbeitung bereitstellen. In diesem Artikel wird ein transformatorbasiertes Modell zur inversen Bildzuordnung und -bearbeitung für StyleGAN vor dem Training vorgeschlagen, das nicht nur weniger Verzerrungen aufweist, sondern auch eine hohe Qualität und Bearbeitungsflexibilität aufweist. Das vorgeschlagene Modell verwendet einen CNN-Encoder, um mehrskalige Bildmerkmale als Schlüssel und Werte bereitzustellen. Gleichzeitig werden die Stilcodes abgefragt, die von den verschiedenen Schichten des Generators ermittelt werden sollen. Es initialisiert zunächst Abfragetokens als lernbare Parameter und ordnet sie dem W+-Bereich zu. Die Abfrage wird dann aktualisiert, um die Eingabe des Generators mithilfe mehrstufiger abwechselnder Selbstaufmerksamkeit und Queraufmerksamkeit umzukehren. Darüber hinaus wird auf der Grundlage der inversen Zuordnung latenter Codes die Attributbearbeitung auf der Grundlage von Referenzbildern und Beschriftungen durch vorab trainierte latente Klassifikatoren untersucht und eine flexible Bild-zu-Bild-Übersetzung sowie qualitativ hochwertige Ergebnisse erzielt.

  • https://github.com/sapphire497/style-transformer

1f14eda2d6bb545b78e2f0abe8c95fc1.png

Dreizehn, Bild in Superauflösung

25、GCFSR: eine generative und kontrollierbare Gesichts-Superauflösungsmethode ohne Gesichts- und GAN-Priorität

  • Die Superauflösung von Gesichtsbildern beruht häufig auf Gesichtsprioritäten, um echte Details wiederherzustellen und Identitätsinformationen zu bewahren. Mit Hilfe von GAN Priors können jüngste Fortschritte beeindruckende Ergebnisse erzielen. Diese Methoden entwerfen jedoch entweder komplexe Module oder verwenden komplexe Trainingsstrategien zur Feinabstimmung des Generators.

  • Diese Arbeit schlägt ein steuerbares Gesichts-SR-Framework namens GCFSR (generatives und steuerbares Gesichts-SR-Framework) vor, das Bilder mit echten Identitätsinformationen ohne zusätzliche Prioritäten rekonstruieren kann. Es werden zwei Module namens Style Modulation und Feature Modulation entwickelt. Die Stilmodulation generiert realistische Gesichtsdetails und das Feature-Modulationsmodul verschmilzt dynamisch mehrstufig codierte Features und generierte Features, die vom Upscaling-Faktor abhängig sind. Einfache und elegante Architekturen können durchgängig von Grund auf trainiert werden.

  • Mit nur einem kontradiktorischen Verlust kann GCFSR für kleine Verstärkungsfaktoren (≤8) überraschend gute Ergebnisse liefern. Nach dem Hinzufügen von L1 und Wahrnehmungsverlust kann GCFSR die beste Methode unter großen Faktoren übertreffen (16, 32, 64).

bc5df2dc23672d611d3d3237642013b9.png

26、Details oder Artefakte: Ein lokal diskriminierender Lernansatz für realistische Bildsuperauflösung

  • Generative Adversarial Networks (GANs) haben aufgrund ihres Potenzials zur Generierung umfangreicher Details in letzter Zeit bei Einzelbild-Superauflösungsaufgaben (SISR) zunehmend Aufmerksamkeit erregt. Das GAN-Training ist jedoch instabil und führt häufig zu wahrnehmungsmäßig unangenehmen Artefakten in den generierten Details.

  • In diesem Artikel wird ein GAN-basiertes SISR-Modell trainiert, um wahrnehmungsrealistische Details robust zu generieren und gleichzeitig visuelle Artefakte zu unterdrücken. Basierend auf der Beobachtung, dass sich die lokalen Statistiken von Artefaktregionen oft von denen wahrnehmungsfreundlicher Detailregionen unterscheiden, wird ein Framework entwickelt, um GAN-generierte Artefakte von echten Details zu unterscheiden. Die vorgeschlagene Methode des lokalen diskriminierenden Lernens (LDL) ist einfach und effektiv und kann problemlos in Standard-SISR-Methoden integriert werden, um deren Leistung zu verbessern. Experimente zeigen, dass LDL modernste GAN-basierte SISR-Methoden übertrifft und nicht nur eine höhere Rekonstruktionsgenauigkeit sowohl bei synthetischen als auch bei realen Datensätzen erreicht, sondern auch eine überlegene Wahrnehmungsqualität.

  • https://github.com/csjliang/LDL

8d9867d254e0ac1d039bb4635d542a89.png

Vierzehn, Bild zum Regen

27、Unpaariges Deep Image Entraining mit dualem kontrastivem Lernen

  • https://cxtalk.github.io/projects/DCD-GAN.html

  • Das Erlernen von SID-Netzwerken (Single Image Deraining) aus einer Reihe ungepaarter sauberer und regnerischer Bilder ist praktisch und wertvoll, da es nahezu unmöglich ist, gepaarte reale Daten zu erhalten. Allerdings ist das Erlernen von SID-Netzwerken ohne gepaarte Daten als Überwachung eine Herausforderung. Darüber hinaus reicht die einfache Verwendung vorhandener ungepaarter Lernmethoden (z. B. ungepaartes kontradiktorisches Lernen und Einschränkungen der Zykluskonsistenz) in der SID-Aufgabe nicht aus, um die latente Beziehung zwischen regnerischer Eingabe und sauberer Ausgabe zu lernen, da eine erhebliche Domänenlücke besteht.

  • In diesem Artikel schlagen wir ein effektives ungepaartes SID-Kontroll-Framework namens DCDGAN vor, um die gegenseitigen Eigenschaften ungepaarter Stichproben durch doppelt kontrastives Lernen im tiefen Merkmalsraum zu untersuchen. Die vorgeschlagene Methode besteht hauptsächlich aus zwei kollaborativen Zweigen: Bidirektionaler Übersetzungszweig (BTB) und Kontrastiver Guidance-Zweig (CGB). Insbesondere nutzt BTB die wiederkehrende Architektur des kontradiktorischen Konsenses voll aus, um umfangreiche Stichprobenpaare zu generieren, und ermittelt die latente Merkmalsverteilung zwischen zwei Domänen, indem es sie mit einer bidirektionalen Zuordnung ausstattet. In der Zwischenzeit verschiebt CGB unterschiedliche Merkmale weiter weg, indem es eine engere Verteilung ähnlicher Merkmale fördert, wodurch implizit die Einbettung verschiedener Proben in den tiefen Merkmalsraum eingeschränkt wird, um die Entfernung von Regenwasser besser zu fördern und die Bildwiederherstellung zu unterstützen.

  • Umfangreiche Experimente zeigen, dass die Methode bestehende ungepaarte Entraining-Methoden sowohl bei synthetischen als auch bei realen Datensätzen übertrifft und vergleichbare Ergebnisse mit mehreren vollständig überwachten oder halbüberwachten Modellen liefert

536aa035fbbe203e058ac00e1393831e.png

15. Bildwiederherstellung

28、Inkrementelle Transformatorstruktur verbessertes Bild-Inpainting mit maskierender Positionskodierung

  • In der Bildmalerei wurden in den letzten Jahren erhebliche Fortschritte erzielt. Allerdings ist die Wiederherstellung beschädigter Bilder mit klaren Texturen und angemessenen Strukturen immer noch eine anspruchsvolle Aufgabe. Einige spezifische Methoden befassen sich nur mit regulären Texturen und ignorieren aufgrund der lokalen Einschränkungen von Convolutional Neural Networks (CNNs) die Gesamtstruktur. Andererseits können aufmerksamkeitsbasierte Modelle die langfristigen Abhängigkeiten der Strukturwiederherstellung besser lernen, sind jedoch aufgrund der rechnerischen Komplexität der Inferenz großer Bilder begrenzt.

  • In diesem Artikel wird vorgeschlagen, einen Strukturrestaurator hinzuzufügen, um das progressive Inpainting von Bildern zu erleichtern. Das Modell stellt die Gesamtstruktur mit einem aufmerksamkeitsbasierten Transformatormodell in einem festen Skizzenraum mit niedriger Auflösung wieder her. Der Code ist veröffentlicht unter: https//github.com/dqiaole/zITS_inrow

f90b534af14cea95cf626e8624bf6a8a.png

29、MISF: Mehrstufige interaktive siamesische Filterung für hochauflösendes Bild-Inpainting

  • Obwohl die bestehenden tiefengenerierten Bild-Inpainting-Methoden gute Fortschritte gemacht haben, ist ihre szenenübergreifende Verallgemeinerung schlecht und sie sind weit von praktischen Anwendungen entfernt. Die erzeugten Bilder enthalten oft Artefakte, gefüllte Pixel und das eigentliche Ideal.

  • In diesem Artikel werden die Vorteile und Herausforderungen der prädiktiven Filterung auf Bildebene bei der Bildwiederherstellung untersucht: Die Methode kann die lokale Struktur bewahren und Artefakte vermeiden, kann jedoch keine großen fehlenden Bereiche auffüllen. Daher wird eine semantische Filterung auf der Ebene tiefer Merkmale vorgeschlagen.

  • Die Methode nutzt effizientes semantisches und bildbasiertes Informationsauffüllen für hochauflösendes Inpainting. https://github.com/tsingqguo/misf

30、MAT: Mask-Aware Transformer für das Inpainting von Bildern mit großen Löchern

  • Die Simulation von Remote-Interaktionen ist bei der Behebung von Problemen sehr wichtig. Um dieses Ziel zu erreichen, verwenden bestehende Methoden unabhängige Aufmerksamkeitstechniken oder Transformatoren, allerdings in der Regel mit niedriger Auflösung angesichts des Rechenaufwands.

  • In diesem Artikel schlagen wir ein neues transformatorbasiertes großflächiges Inpainting-Modell vor, das die Vorteile von Transformatoren und Faltungen kombiniert, um hochauflösende Bilder effizient zu verarbeiten. Jede Komponente des Frameworks wurde sorgfältig entwickelt, um Bilder mit hoher Wiedergabetreue und Vielfalt wiederherzustellen.

  • Code https://github.com/fenglinglwb/MAT

959a9f4a5a50a59f3c8b7cfca4c89ee6.png

Sechzehn, außerhalb der Bildreparatur

31、Vielfältiges, plausibles 360-Grad-Bild-Outpainting für eine effiziente 3DCG-Hintergrunderstellung

Dieser Artikel befasst sich mit dem Problem der Generierung von 360-Grad-Bildern aus einem einzelnen Bild mit einem engen Sichtfeld durch Schätzung seiner Umgebung. Bisherige Methoden leiden unter einer übermäßigen Trainingsauflösung und einer deterministischen Generierung. In diesem Artikel werden eine Vervollständigungsmethode für die Szenenmodellierung mithilfe von Transformatoren und eine neue Methode zur Verbesserung der 360-Grad-Bildeigenschaften des Ausgabebilds vorgeschlagen.

Insbesondere werden CompletionNets mit Transformatoren verwendet, um verschiedene Vervollständigungen durchzuführen, und AdjustmentNet wird verwendet, um die Farbe, das Stitching und die Auflösung von Eingabebildern anzupassen und so Rückschlüsse bei jeder Auflösung zu ermöglichen. Um die Eigenschaften von 360-Grad-Bildern auf dem Ausgabebild zu verbessern, werden auch WS-Wahrnehmungsverlust und wiederkehrende Schlussfolgerungen vorgeschlagen. Die Methode übertrifft modernste (SOTA) Methoden sowohl qualitativ als auch quantitativ. Darüber hinaus wird eine Idee vorgeschlagen, die Ergebnisse für die Beleuchtung und den Hintergrund von 3DCG-Szenen zu nutzen.

af93bdafac070e7bee158b4f0e9aac67.png

Siebzehn, Bildkonvertierung

32、Erforschung der fleckenweisen semantischen Beziehung für kontrastives Lernen bei Bild-zu-Bild-Übersetzungsaufgaben

  • Kürzlich wurden Bildübersetzungsmethoden vorgeschlagen, die auf kontrastivem Lernen basieren und verschiedene räumliche Standorte vergleichen, um die räumliche Korrespondenz zu verbessern. Unterschiedliche semantische Beziehungen innerhalb von Bildern werden jedoch häufig ignoriert.

  • Um dieses Problem anzugehen, wird eine neuartige Regularisierung der semantischen Beziehungskonsistenz (SRC) und entkoppeltes kontrastives Lernen vorgeschlagen, um unterschiedliche Semantiken zu nutzen, indem der Schwerpunkt auf der heterogenen Semantik zwischen Bildfeldern eines einzelnen Bildes liegt. Um die Leistung weiter zu verbessern, wird ein hartes Negativ-Mining unter Ausnutzung semantischer Beziehungen vorgeschlagen. Die Methode wird für drei Aufgaben validiert: unimodale und multimodale Bildübersetzung sowie eine GAN-Komprimierungsaufgabe für die Bildübersetzung. Experimentelle Ergebnisse bestätigen die Überlegenheit der Methode in allen drei Aufgabenstellungen.

37665958e857fa45880a3438942ae792.png

33、FlexIT: Auf dem Weg zu einer flexiblen semantischen Bildübersetzung

  • Tiefe generative Modelle wie GAN haben das technische Niveau der Bildsynthese erheblich verbessert und können realistische Bilder in strukturierten Datendomänen wie Gesichtern erzeugen. Bei neueren Arbeiten zur Bildbearbeitung wird das Bild in einen latenten GAN-Raum projiziert und die latenten Vektoren manipuliert. Diese Methoden weisen jedoch Datenbeschränkungen auf, lassen sich nicht gut verallgemeinern und können nur begrenzte Bearbeitungsvorgänge durchführen.

  • Das FlexIT in diesem Artikel kann mit jedem Eingabebild und benutzerdefinierten Textanweisungen bearbeitet werden, wodurch eine flexible und natürliche Bearbeitung ermöglicht wird. Zunächst ordnet FlexIT die Eingabebild- und Textkombination dem multimodalen Einbettungsraum von CLIP zu; durch den latenten Raum des Autoencoders wird das Eingabebild iterativ zum Zielpunkt transformiert, und die Kohärenz und Qualität werden durch verschiedene Regularisierungsterme sichergestellt. In diesem Artikel wird auch eine Bewertungsmethode für die semantische Bildübersetzung vorgeschlagen.

55cc1716dda692b2ed44dc9dc7af9666.png

34、QS-Attn: Abfrageselektive Aufmerksamkeit für kontrastives Lernen in der I2I-Übersetzung

  • Die ungepaarte Bild-zu-Bild-Übersetzung (I2I) erfordert normalerweise die Maximierung der gegenseitigen Informationen zwischen Quell- und transformierten Bildern in verschiedenen Domänen, was für den Generator wichtig ist, um den Quellinhalt zu bewahren und seine unerwünschte Änderung zu verhindern. Selbstüberwachtes kontrastives Lernen wurde erfolgreich auf I2I angewendet. Durch die Einschränkung, dass Features vom gleichen Standort näher beieinander liegen als Features von unterschiedlichen Standorten, wird implizit sichergestellt, dass das Ergebnis Inhalte von der Quelle erhält. Frühere Arbeiten verwendeten jedoch Features von zufälligen Standorten, um Einschränkungen aufzuerlegen, was möglicherweise nicht geeignet ist, da einige Standorte weniger Quelldomäneninformationen enthalten.

  • Dieser Artikel geht auf diese Probleme ein, indem er bewusst wichtige Anker für kontrastives Lernen auswählt und ein QS-Attn-Modul (Query Selective Attention) entwirft, das Merkmalsabstände in der Quelldomäne vergleicht und eine Aufmerksamkeitsmatrix erstellt, wobei jede Zeile eine Wahrscheinlichkeitsverteilung aufweist. Die Abfragen werden dann basierend auf einem aus der Verteilung berechneten Wichtigkeitsmaß ausgewählt. Die Ausgewählten gelten als Anker des Kontrastverlustes. In der Zwischenzeit wird eine Matrix mit reduzierter Aufmerksamkeit verwendet, um Merkmale in beiden Domänen weiterzuleiten, um die Quellbeziehungen in der Synthese beizubehalten.

  • Die Validierung der vorgeschlagenen Methode an drei verschiedenen I2I-Datensätzen zeigt eine verbesserte Bildqualität, ohne dass lernbare Parameter hinzugefügt werden müssen. https://github.com/sapphire497/query-selected-attention

94de057114b597d22d258ee084a2a9e8.png

35、Modulierter Kontrast für vielseitige Bildsynthese

  • Die Wahrnehmung von Ähnlichkeiten zwischen Bildern ist seit langem ein grundlegendes Problem bei verschiedenen visuellen Generierungsaufgaben. Abstände zwischen Bildern werden durch die Berechnung punktueller absoluter Abweichungen gemessen, die dazu neigen, den Median von Instanzverteilungen abzuschätzen und zu Unschärfe und Artefakten in erzeugten Bildern führen.

  • In diesem Artikel führt MoNCE, eine Allzweckmetrik, den Bildkontrast ein, um eine Kalibrierungsmetrik für die Wahrnehmung von Abständen zwischen Bildern mit mehreren Aspekten zu erlernen. Wir schlagen vor, negative Proben entsprechend ihrer Ähnlichkeit mit Ankern adaptiv neu zu gewichten, was das kontrastive Lernen aus informativen negativen Proben erleichtert. Da die Bildabstandsmessung mehrere lokale Kontrastziele auf Blockebene umfasst, wird in MoNCE eine optimale Übertragung eingeführt, um die Antriebskraft negativer Proben zwischen mehreren Kontrastzielen kooperativ anzupassen.

  • Umfangreiche Experimente zu mehreren Bildübersetzungsaufgaben zeigen, dass das vorgeschlagene MoNCE verschiedene Mainstream-Metriken bei weitem übertrifft.

dd6b0c4cf0d2910996d0915021c3eb23.png

36、SemanticStyleGAN: Lernen kompositorischer generativer Prioritäten für steuerbare Bildsynthese und -bearbeitung

  • https://semanticstylegan.github.io/

  • Aktuelle Studien haben gezeigt, dass StyleGAN ein vielversprechendes Vormodell für nachgelagerte Aufgaben der Bildsynthese und -bearbeitung darstellt. Da der latente Code von StyleGAN jedoch darauf abzielt, den globalen Stil zu steuern, ist es schwierig, eine feinkörnige Kontrolle über die synthetisierten Bilder zu erreichen.

  • In diesem Artikel wird SemanticStyleGAN vorgeschlagen, bei dem ein Generator darauf trainiert wird, lokale semantische Teile separat zu modellieren und Bilder auf kombinierte Weise zu synthetisieren. Die Strukturen und Texturen verschiedener lokaler Teile werden durch entsprechende latente Codes gesteuert. Experimentelle Ergebnisse zeigen, dass das Modell eine starke Entkopplung zwischen verschiedenen Raumregionen ermöglicht. In Kombination mit für StyleGAN entwickelten Bearbeitungsmethoden ermöglicht es eine feinkörnigere Steuerung zum Bearbeiten synthetischer oder realer Bilder.

  • Das Modell kann durch Transferlernen auch auf andere Domänen erweitert werden. Daher kann es als allgemeines Vorgängermodell mit integrierter Entkopplung die Entwicklung GAN-basierter Anwendungen erleichtern und mehr potenzielle nachgelagerte Aufgaben ermöglichen.

2949dbcbff90033ab033833a8c6bdd24.png

37、Porträtbrillen und Schattenentfernung durch Nutzung synthetischer 3D-Daten

  • https://github.com/StoryMY/take-off-eyeglasses

  • Bei Porträts kann die Brille Bereiche des Gesichts verdecken und Schatten werfen, was die Leistung vieler Technologien wie Gesichtserkennung und Gesichtsausdruckserkennung beeinträchtigen kann. Um diese Probleme zu lösen, ist das Abnehmen der Porträtbrille von entscheidender Bedeutung. Das vollständige Abnehmen der Brille ist jedoch eine Herausforderung, da die dadurch verursachten Lichteffekte, wie z. B. Schattenwürfe, oft komplex sind.

  • In diesem Artikel wird ein neuartiger Rahmen zur Entfernung von Brillen und den von ihnen geworfenen Schatten aus Gesichtsbildern vorgeschlagen. Die Methode funktioniert nach dem Prinzip „Erkennen und dann entfernen“, bei dem sowohl Brillen als auch Schlagschatten erkannt und dann aus dem Bild entfernt werden. Aufgrund des Mangels an gepaarten Daten für überwachtes Training wird ein neuer synthetischer Porträtdatensatz mit Zwischen- und Endüberwachung für Erkennungs- und Entfernungsaufgaben vorgeschlagen. Darüber hinaus werden domänenübergreifende Techniken eingesetzt, um die Lücke zwischen synthetischen und realen Daten zu schließen. Nach unserem besten Wissen ist die vorgeschlagene Technik die erste, die gleichzeitig Brillen und deren Schlagschatten entfernt.

d4132052cda342178f45a08829a78dfe.png

38、Pix2NeRF: Unbeaufsichtigtes bedingtes π-GAN für die Übersetzung einzelner Bilder in neuronale Strahlungsfelder

  • https://github.com/primecai/Pix2NeRF

  • Wir schlagen ein neuronales Strahlungsfeld (NeRF) vor, um Objekte oder klassenspezifische Szenen basierend auf einem einzelnen Eingabebild zu generieren. Dies ist eine herausfordernde Aufgabe, da das NeRF-Training mehrere Ansichten derselben Szene mit entsprechenden Posen erfordert, die schwer zu erreichen sind.

  • Die Methode basiert auf π-GAN, einem generativen Modell für die bedingungslose 3D-Wahrnehmungsbildsynthese, das zufällige latente Codes auf das Strahlungsfeld einer Klasse von Objekten abbildet. Optimieren Sie gemeinsam (1) das π-GAN-Ziel, um seine hochauflösende 3D-Wahrnehmungsgenerierung zu nutzen, und (2) das gut gestaltete Rekonstruktionsziel. Letzterer besteht aus einem Encoder, der mit einem π-GAN-Generator gekoppelt ist, um einen Autoencoder zu bilden. Im Gegensatz zu früheren NeRF-Methoden mit wenigen Aufnahmen ist die Methode unbeaufsichtigt und ermöglicht die Verwendung unabhängiger Bilder für das Training ohne 3D-, Mehrfachansichts- oder Posenüberwachung. Zu den Anwendungen unserer Methode gehören unter anderem die Generierung von 3D-Avataren, neuartige objektzentrierte Ansichtssynthese unter Verwendung eines einzigen Eingabebilds und 3D-fähige Superauflösung.

a3fe3063213d9aac57f7f2c8fc0f5d35.png

39、Maximale räumliche Störungskonsistenz für ungepaarte Bild-zu-Bild-Übersetzung

  • https://github.com/batmanlab/MSPC

  • Die ungepaarte Bild-zu-Bild-Übersetzung (I2I) ist ein schlecht gestelltes Problem, das über eine unendliche Anzahl von Transformationsfunktionen verfügen kann, die eine Quelldomänenverteilung einer Zielverteilung zuordnen können. Daher wurde viel Aufwand darauf verwendet, geeignete Einschränkungen zu entwerfen, wie z. B. Zykluskonsistenz (CycleGAN), geometrische Konsistenz (GCGAN) und auf kontrastivem Lernen basierende Einschränkungen (CUTGAN). Diese bekannten Einschränkungen haben jedoch ihre Grenzen: (1) Sie sind für bestimmte I2I-Aufgaben entweder zu streng oder zu schwach; (2) Bei erheblichen räumlichen Abweichungen zwischen Quell- und Zieldomäne können diese Methoden zu Inhaltsverlusten führen ist verzerrt.

  • In diesem Artikel wird eine allgemeine Regularisierungstechnik namens Maximum Spatial Perturbation Consistency (MSPC) vorgeschlagen, die erzwingt, dass die räumliche Störungsfunktion (T) und der Übersetzungsoperator (G) kommutativ sind (d. h. T ◦ G = G ◦ T). Darüber hinaus werden zwei kontradiktorische Trainingskomponenten eingeführt, um die räumliche Störungsfunktion zu erlernen. Der erste lässt T mit G um maximale Störung konkurrieren. Im zweiten Schritt konkurrieren G und T mit dem Diskriminator, um räumliche Variationen auszugleichen, die durch Variationen der Objektgröße, Objektverzerrungen, Hintergrundunterbrechungen usw. verursacht werden.

  • Die Methode übertrifft modernste Methoden bei den meisten I2I-Benchmarks. Außerdem wird ein neuer Benchmark, der Frontal-zu-Profil-Gesichtsdatensatz, eingeführt, um die potenziellen Herausforderungen von I2I für reale Anwendungen hervorzuheben. Abschließend werden Ablationsexperimente durchgeführt, um die Empfindlichkeit der Methode gegenüber der Schwere räumlicher Störungen und ihre Wirksamkeit für die Verteilungsausrichtung zu untersuchen.

581a851eccdd23632a3942e520892377.png

40、Randkontrastive Korrespondenz für die geführte Bilderzeugung

  • Bei beispielbasierten Bildübersetzungsaufgaben wird eine dichte Korrespondenz zwischen bedingten Eingaben und Beispielen (aus zwei verschiedenen Domänen) erstellt, um detaillierte Beispielstile für eine realistische Bildübersetzung zu nutzen. Bestehende Arbeiten stellen implizit domänenübergreifende Korrespondenzen her, indem sie den Merkmalsabstand zwischen zwei Domänen minimieren. Ohne die explizite Nutzung domäneninvarianter Merkmale kann dieser Ansatz Domänenlücken möglicherweise nicht effektiv reduzieren, was oft zu suboptimalen Korrespondenzen führt.

  • In diesem Artikel entwerfen wir ein Marginal Contrastive Learning Network (MCL-Net), das kontrastives Lernen erforscht, um domäneninvariante Merkmale für die beispielbasierte Bildübersetzung zu lernen. Allerdings kann die alleinige Herstellung von Korrespondenzen mit domäneninvarianter Semantik das Texturschema gefährden und zu einer Verschlechterung der Qualität der Texturgenerierung führen. Daher verbessert der Entwurf einer Autokorrelationskarte (Self-Correlation Map, SCM), die die Szenenstruktur als Hilfsinformationen enthält, die konstruierte Korrespondenz erheblich. Quantitative und qualitative Experimente zu verschiedenen Bildübersetzungsaufgaben zeigen, dass die vorgeschlagene Methode die modernsten Methoden durchweg übertrifft.

44e4c11e3e2316156088f63ac15f89ca.png

41、GAN-überwachte dichte visuelle Ausrichtung

  • https://www.wpeebles.com/gangealing

  • Schlägt die Anwendung von GAN-überwachtem Lernen auf das Problem der dichten visuellen Ausrichtung vor. Inspiriert von klassischen Erstarrungsmethoden trainiert der GANgealing-Algorithmus einen räumlichen Transformator, um zufällige Stichproben aus einem auf falsch ausgerichteten Daten trainierten GAN auf gemeinsame, gemeinsam erlernte Zielmuster abzubilden.

  • Es werden Ergebnisse zu acht Datensätzen präsentiert, die zeigen, dass die Methode komplexe Daten erfolgreich ausrichtet und dichte Korrespondenzen herstellt. GANgealing übertrifft frühere selbstüberwachte Korrespondenzalgorithmen und ist bei mehreren Datensätzen auf Augenhöhe (und übertrifft manchmal sogar) modernste überwachte Korrespondenzalgorithmen, ohne Korrespondenzüberwachung oder Daten zu verwenden. Unter der Einstellung von GAN-generierten Daten. Der Artikel demonstriert auch Anwendungen der Methode für Augmented Reality, Bildbearbeitung und automatische Vorverarbeitung von Bilddatensätzen.

698eb01b5356853d46a81b43741a2b38.png

Achtzehn, Text zum Bild

42、Text-zu-Bild-Generierung mit semantisch-räumlichem GAN

  • Die Text-zu-Bild-Synthese (T2I) zielt darauf ab, realistische Bilder zu erzeugen, die semantisch mit Textbeschreibungen übereinstimmen. Bestehende Methoden bauen typischerweise auf bedingten generativen gegnerischen Netzwerken (GANs) auf und initialisieren Bilder aus Rauschen mithilfe von Satzmerkmalseinbettungen und verfeinern dann Merkmale iterativ mithilfe feinkörniger Worteinbettungen. Allerdings gibt es eine Einschränkung: Selbst wenn das generierte Bild insgesamt mit der Beschreibung übereinstimmt, sind einzelne Bildbereiche oder Teile von etwas oft nicht erkennbar oder stimmen nicht mit der Bedeutung der Wörter im Satz überein.

  • Zu diesem Zweck wird ein neuartiges semantisches raumbezogenes GAN zur Synthese von Bildern aus Eingabetext vorgeschlagen. Insbesondere wird ein einfacher und effektiver semantischer raumbewusster Block eingeführt, der (1) eine semantisch adaptive Transformation lernt, die auf Text basiert, um Text- und Bildmerkmale effizient zu verschmelzen, und (2) auf schwach überwachte Weise semantische Masken lernt, die darauf basieren der aktuelle Text-Bild-Fusionsprozess, um die Transformation räumlich zu steuern.

  • https://github.com/wtliao/text2image

6832f254b41940d41492e13c90f7e259.png

19. Anomalieerkennung

43、Generatives kooperatives Lernen zur unbeaufsichtigten Erkennung von Videoanomalien

  • Die Erkennung von Videoanomalien wurde in schwach überwachten und One-Class-Classification-Umgebungen (OCC) gut untersucht. Unbeaufsichtigte Methoden zur Erkennung von Videoanomalien sind jedoch rar, möglicherweise weil Anomalien selten auftreten und oft schlecht definiert sind, gepaart mit der fehlenden Überwachung mit Etiketteninformationen, was sich negativ auf die Leistung von Lernalgorithmen auswirken kann. Dieses Problem stellt eine Herausforderung dar, ist aber auch wertvoll, da dadurch die Kosten für die Beschaffung aufwändiger Anmerkungen vollständig entfallen könnten und die Bereitstellung solcher Systeme ohne menschliches Eingreifen möglich wäre.

  • In diesem Artikel wird eine neuartige Methode des unbeaufsichtigten generativen kooperativen Lernens (GCL) zur Erkennung von Videoanomalien vorgeschlagen, die die geringe Häufigkeit von Anomalien nutzt, um eine gegenseitige Überwachung zwischen dem Generator und dem Diskriminator aufzubauen. Im Wesentlichen werden beide Netzwerke kooperativ trainiert, was ein unüberwachtes Lernen ermöglicht. Umfangreiche Experimente werden mit zwei umfangreichen Datensätzen zur Erkennung von Videoanomalien durchgeführt: UCF Crime und ShanghaiTech.

21dfa4cf0cbe49a0b4c8f2ad50c91237.png

20. Datenschutz

44、Gesichtsprivatsphäre schützen: Generierung gegnerischer Identitätsmasken durch stilsichere Make-up-Übertragung

  • https://github.com/CGCL-codes/AMT-GAN

  • Obwohl Gesichtserkennungssysteme (FR) eine beeindruckende Leistung bei der Erkennung und Verifizierung gezeigt haben, werfen sie aufgrund ihrer übermäßigen Nutzung bei Benutzern auch Bedenken hinsichtlich der Privatsphäre auf, insbesondere bei öffentlichen Gesichtsbildern, die in sozialen Netzwerken weit verbreitet sind. Kürzlich verwenden einige Studien kontroverse Beispiele, um Fotos vor nicht autorisierten Gesichtserkennungssystemen zu schützen. Allerdings weisen die bestehenden Methoden zur Generierung kontradiktorischer Gesichtsbilder viele Einschränkungen auf, wie z. B. visuelle Peinlichkeit, White-Box-Einstellung, schwache Übertragbarkeit usw., die sich nur schwer auf den Schutz der Privatsphäre in der Realität anwenden lassen.

  • In diesem Artikel schlagen wir Adversarial Makeup Transfer GAN (AMT-GAN) vor, einen neuartigen Ansatz zum Gesichtsschutz, der darauf abzielt, gegnerische Gesichtsbilder zu erstellen und gleichzeitig eine stärkere Black-Box-Übertragbarkeit und eine bessere visuelle Qualität aufrechtzuerhalten. AMT-GAN nutzt generative gegnerische Netzwerke (GANs), um gegnerische Gesichtsbilder mit von Referenzbildern übertragenem Make-up zu synthetisieren. Insbesondere werden ein neues Regularisierungsmodul und eine gemeinsame Trainingsstrategie eingeführt, um den Konflikt zwischen gegnerischem Lärm und Zykluskonsistenzverlust bei der Make-up-Übertragung in Einklang zu bringen und so ein ideales Gleichgewicht zwischen Angriffsstärke und visueller Variation zu erreichen. Umfangreiche Experimente zeigen, dass AMT-GAN nicht nur eine angenehme visuelle Qualität beibehält, sondern im Vergleich zu bestehenden Techniken auch eine höhere Angriffserfolgsquote aufweist als kommerzielle FR-APIs.

7a4e3a0c2074fd0ba1c5e97ea6bee419.png

21. Semantische Generation

45、Interaktive Bildsynthese mit panoptischer Layout-Generierung

  • Benutzer möchten häufig die Szenenstruktur der generierten Bilder kontrollieren, und die interaktive Bildsynthese aus benutzergeführten Eingaben ist eine anspruchsvolle Aufgabe. Obwohl bei Layout-basierten Bildsynthesemethoden einige Fortschritte erzielt wurden, erfordern bestehende Methoden hochpräzise Eingaben, erfordern möglicherweise mehrere Anpassungen und sind für unerfahrene Benutzer nicht benutzerfreundlich, um realistische gefälschte Bilder in interaktiven Szenarien zu erhalten. Wenn die Platzierung der Begrenzungsrahmen gestört ist, kann es bei Layout-basierten Modellen zu „fehlenden Regionen“ im konstruierten semantischen Layout kommen, was zu unerwünschten Artefakten in den generierten Bildern führt.

  • Diese Arbeit schlägt Panoptic Layout Generative Adversarial Networks (PLGAN) vor, um dieser Herausforderung zu begegnen. PLGAN unterscheidet Objektkategorien in Teile mit amorphen Grenzen („Stuff“) und Teile mit klar definierten Formen („Things“), die durch separate Zweige aufgebaut und dann zu einem panoptischen Layout verschmolzen werden. Beim experimentellen Vergleich von PLGAN mit Layout-basierten Modellen auf dem neuesten Stand der Technik auf COCO-Stuff-, Visual Genome- und Landscape-Datensätzen zeigen sich die Vorteile nicht nur in der Vision, sondern auch quantitativ verifiziert in Bezug auf IS, FID und Klassifizierungsgenauigkeit Partituren

7a8acc84399c4bd24900dd6ff6a1a7a4.png

22. Domänenanpassung

46、Unüberwachte Domänenanpassung für nächtliche Luftverfolgung

  • https://github.com/vision4robotics/UDAT

  • Bei früheren Fortschritten bei der Objektverfolgung wurde die Leistung bei Nacht größtenteils vernachlässigt, und die nächtlichen Bedingungen haben die Entwicklung relevanter Flugroboteranwendungen behindert. In diesem Artikel wird ein neuartiges unbeaufsichtigtes Domänenanpassungs-Framework (Nighttime Aerial Tracking, UDAT) für die nächtliche Luftverfolgung vorgeschlagen. Insbesondere wird eine Objekterkennungsmethode bereitgestellt, um Trainingspatches aus rohen Nachtverfolgungsvideos zu generieren. Um Domänenunterschiede zu berücksichtigen, wird im Feature-Extraktor ein Transformer verwendet, um Bildmerkmale aus beiden Domänen auszurichten. Mithilfe des Tag-/Nacht-Feature-Diskriminators von Transformer wird das Tag-Tracking-Modell gezielt für die Nachtverfolgung trainiert.

  • Darüber hinaus wird ein bahnbrechender Benchmark, NAT2021, für unbeaufsichtigtes, domänenadaptives Nacht-Tracking erstellt, das einen Testsatz von 180 manuell annotierten Tracking-Sequenzen und einen Trainingssatz von über 276.000 unbeschrifteten Nacht-Tracking-Frames umfasst. Umfangreiche Experimente belegen die Robustheit und Domänenanpassungsfähigkeit des vorgeschlagenen Rahmenwerks bei der nächtlichen Luftverfolgung.

803cf7df2363fc1cf95d6a688ab59cb7.png

23. Haltungsübertragung

47、Untersuchung der Dual-Task-Korrelation für die Posen-gesteuerte Personenbildgenerierung

  • Pose Guided Person Image Generation (PGPIG) ist die Aufgabe, ein Personenbild von einer Quellpose in eine bestimmte Zielpose umzuwandeln. Die meisten vorhandenen Methoden können keine vernünftige Texturabbildung erfassen. Um dieses Problem zu lösen, wird ein neues Dual-Task-Pose-Transformer-Netzwerk (Dual-Task Pose Transformer Network, DPTN) vorgeschlagen, das eine Hilfsaufgabe (dh eine Quelle-zu-Quelle-Aufgabe) einführt und eine Dual-Task-Korrelation verwendet Verbessern Sie die Leistung von PGPIG.

  • DPTN enthält „Quelle-zu-Quelle“-Selbstrekonstruktionszweige und „Quelle-zu-Ziel“-generierte Transformationszweige. Durch die gemeinsame Aufteilung eines Teils der Gewichte kann das aus der Quelle-zu-Quelle-Aufgabe gewonnene Wissen das Quelle-zu-Ziel-Lernen effektiv unterstützen. Darüber hinaus werden die beiden Zweige mithilfe des Pose Transformer Module (PTM) verbunden, um die Korrelation zwischen Funktionen für Doppelaufgaben adaptiv zu untersuchen. Diese Korrelation kann eine feinkörnige Zuordnung aller Pixel zwischen Quelle und Ziel erstellen und so die Übertragung der Quelltextur erleichtern, um die Details des resultierenden Zielbilds zu verbessern.

  • Umfangreiche Experimente zeigen, dass DPTN sowohl im PSNR als auch im LPIPS den Stand der Technik übertrifft. Darüber hinaus enthält DPTN nur 9,79 Millionen Parameter, was deutlich weniger als andere Methoden ist. https://github.com/PangzeCheung/Dual-task-PoseTransformer-Network

7f93e52b9a4fab3121a0f73d7841d5c6.png

Vierundzwanzig, Logo-Schriftgenerierung

48、Ästhetische Text-Logo-Synthese durch inhaltsbewusste Layout-Ableitung

  • Textbasiertes LOGO-Design beruht weitgehend auf der Kreativität und dem Fachwissen professioneller Designer, wobei die Gestaltung des Layouts von Elementen einer der wichtigsten Prozesse ist. Dieser Aufgabe, die die Berücksichtigung vieler Faktoren erfordert (z. B. Schriftarten, Linguistik, Themen usw.), wurde jedoch wenig Aufmerksamkeit geschenkt.

  • In diesem Artikel wird ein inhaltsbewusstes Layout-Generierungsnetzwerk vorgeschlagen, das Glyphenbilder und den entsprechenden Text als Eingabe verwendet und automatisch ästhetische Layouts für sie synthetisiert. Insbesondere wird ein Dual-Diskriminator-Modul entwickelt, das einen Sequenzdiskriminator und einen Bilddiskriminator umfasst, um die Trajektorien der Zeichenplatzierung bzw. die gerenderten Formen von synthetisiertem Text zu bewerten. Darüber hinaus werden sprachliche Informationen aus Texten und visuell-semantische Informationen aus Glyphen zusammengeführt, um die Layout-Vorhersage zu unterstützen. Beide spielen eine wichtige Rolle bei der professionellen Layout-Gestaltung.

  • Um die Methode zu trainieren und zu evaluieren, wird ein Datensatz namens TextLogo3K erstellt, der aus etwa 3.500 Textlogobildern und ihren Anmerkungen auf Pixelebene besteht. Experimentelle Studien zu diesem Datensatz belegen die Wirksamkeit unserer Methode bei der Synthese optisch ansprechender Textlogos und bestätigen ihre Überlegenheit gegenüber dem Stand der Technik.

  • https://github.com/yizhiwang96/TextLogoLayout

21f6fc1918bbbcee4b269a45491bb176.png

25. Gesichts-/Kopftausch

49、Few-shot Head Swapping in the Wild

  • Die Kopfwechselaufgabe, die darauf abzielt, den Quellkopf perfekt auf dem Zielkörper zu platzieren, ist für verschiedene Unterhaltungsszenarien wichtig. Während der Gesichtswechsel viel Aufmerksamkeit erregt hat, wurde die Aufgabe des Kopfwechsels selten untersucht, insbesondere in der Einstellung mit wenigen Aufnahmen. Aufgrund seiner besonderen Anforderungen an die Kopfmodellierung und Hintergrundüberblendung ist es von Natur aus eine Herausforderung.

  • In diesem Artikel wird der Head Swapper (HeSer) vorgeschlagen, der den Kopfaustausch mit wenigen Schüssen über zwei gut gestaltete Module implementiert. Erstens ist ein Head2Head-Aligner darauf ausgelegt, Haltungs- und Ausdrucksinformationen vom Zielkopf als Ganzes durch Multiskaleninformationen zu übertragen. Zweitens wird Head2Scene Blender eingeführt, um die Herausforderungen der Variation der Hautfarbe und der Nichtübereinstimmung des Kopfhintergrunds beim Austausch zu bewältigen, um gleichzeitig die Gesichtshautfarbe zu ändern und die Nichtübereinstimmung im Hintergrund um den Kopf herum auszugleichen.

  • https://jmliu88.github.io/HeSer/

afe1a94387ad494b3997ff7506ca3338.png

50、Hochauflösendes Face Swapping durch latente Semantik-Entwirrung

  • Unter Verwendung der inhärenten Vorkenntnisse des vorab trainierten GAN-Modells wird eine neue hochauflösende Gesichtsaustauschmethode vorgeschlagen. Obwohl frühere Studien generative Priors nutzen können, um hochauflösende Ergebnisse zu erzielen, kann ihre Qualität durch die Semantik der Verschränkung im latenten Raum beeinflusst werden.

  • In diesem Artikel wird die latente Semantik explizit entwirrt, indem die asymptotische Natur des Generators ausgenutzt wird, um Struktureigenschaften aus flachen Schichten und Erscheinungseigenschaften aus tieferen Schichten abzuleiten. Identitäts- und Poseninformationen in Strukturattributen werden durch die Einführung schlüsselpunktgesteuerter latenter Strukturübertragungsrichtungen weiter getrennt. Die entschlüsselten latenten Codes ergeben reichhaltige generative Merkmale, die sich zu plausiblen Austauschergebnissen vermischen. Es wird durch die Durchsetzung zweier räumlich-zeitlicher Einschränkungen für den latenten Raum und den Bildraum weiter auf den Video-Gesichtsaustausch ausgeweitet. Umfangreiche Experimente zeigen, dass die vorgeschlagene Methode die modernsten Bild-/Video-Face-Swapping-Methoden hinsichtlich Qualität und Konsistenz übertrifft.

  • Code: https://github.com/cnnlstm/FSLSD_HiRes

fdbad8302dcb8d68541ba59ba26e46e4.png

Ich denke, Ihnen wird Folgendes gefallen:

f3e53ee790fab60a36bbf0ebbbcbda56.png Klicken Sie auf mich, um die Serienalben von GAN anzusehen~!

Gehen Sie zum Mittagessen aus und werden Sie zum Vorreiter der Vision Ihres Lebenslaufs!

 ICCV 2021 | 35 GAN-Themen, die umfassendste Zusammenfassung der GAN-Artikel

Über 110 Artikel! Zusammenfassung der umfassendsten GAN-Papiere im CVPR 2021!

Über 100 Artikel! Zusammenfassung der umfassendsten GAN-Papiere im CVPR 2020!

Demontage des neuen GAN: Entkopplungsdarstellung MixNMatch

StarGAN Version 2: Multi-Domain-Diversity-Bildgenerierung

Angehängter Download | Chinesische Version von „Explainable Machine Learning“

Angehängter Download | „TensorFlow 2.0 Deep Learning-Algorithmen in der Praxis“

Angehängter Download | „Mathematische Methoden in der Computer Vision“ teilen

„Eine Überprüfung der Methoden zur Erkennung von Oberflächenfehlern basierend auf Deep Learning“

Ein Überblick über die Zero-Shot-Bildklassifizierung: Ein Jahrzehnt des Fortschritts

„Eine Übersicht über Few-Shot-Lernen basierend auf tiefen neuronalen Netzen“

80d1d8c7acbacf9ff16173a1ad20ab92.png

Supongo que te gusta

Origin blog.csdn.net/lgzlgz3102/article/details/124521800
Recomendado
Clasificación