Vor- und Nachteile von Transformer im Bereich CV

Tipp: Nachdem der Artikel geschrieben wurde, kann das Inhaltsverzeichnis automatisch generiert werden, wie es erstellt wird, können Sie dem Hilfedokument auf der rechten Seite entnehmen


Referenz: Linkbeschreibung hinzufügen

Visual Transformer hat die folgenden guten Eigenschaften:


1. Globale Eigenschaften: CNN-Betreiber haben das Problem begrenzter lokaler Empfangsfelder.Um globale Informationen zu erhalten, ist ein mehrschichtiges Stapeln erforderlich,aber wenn die Anzahl der Schichten zunimmt, wird die Informationsmenge geringer,so dass sich die extrahierten Merkmale konzentrieren auf bestimmten Gebieten. . Transformer verfügt über einen Selbstaufmerksamkeitsmechanismus, der globale Informationen effektiv abrufen kann, und mehrere Köpfe können sie mehreren Räumen zuordnen, wodurch das Modell ausdrucksstärker wird.
2. Transformer hat eine gute Mode-Fusion-Fähigkeit Für Bilder können die anfänglichen Embeddings, die durch Conv oder direkte Pixeloperationen erhalten wurden, in Transformer eingespeist werden, ohne dass die H×B×C-Feature-Map-Struktur immer beibehalten wird. Ähnlich wie bei Position Embedding kann es einfach verwendet werden, solange die Informationen codiert werden können.
3. Mehrere Tasks-Fähigkeit. Viel Arbeit hat bewiesen, dass ein Transformer viele Aufgaben ausführen kann, da sein Aufmerksamkeitsmechanismus es dem Netzwerk ermöglicht, für verschiedene Aufgaben unterschiedlich zu lernen.Eine einfache Verwendung besteht darin, eine Aufgaben-ID-Einbettung hinzuzufügen.

Einschränkung

1. Berechnungseffizienz. Ein wichtiger Grund, warum Transformer CNN derzeit nicht ersetzen kann, ist zweifellos die Recheneffizienz. Derzeit wird die Transformer-Struktur im NLP noch direkt im CV-Bereich angewendet, und es gibt weniger spezielles Design für CV-Daten Bilder/Videos ist riesig, für Text ist der Rechenaufwand von Transformer immer noch sehr groß. Natürlich hat nach ViT die Arbeit begonnen, eine Transformer-Struktur zu entwerfen, die besser für CV geeignet ist.Es wird geschätzt, dass dieses Feld derzeit auch ein sehr heißes Feld ist, und es sollte in Zukunft viel Arbeit geben.
2. Anwendungsanpassung. Neben der Verbesserung der grundlegenden Netzwerkstruktur muss Transformer vorangetrieben werden. Die Entwicklung des Lebenslaufs erfordert auch den Erfolg bei vielen nachgelagerten Aufgaben des Lebenslaufs. Das sieht ein bisschen so aus, als würde man den Transformer durch den CNN ersetzen und die vorherige Arbeit an jeder CV-Aufgabe wiederholen. Aber in Wirklichkeit ist es nicht so einfach, CNN Backbone zu ersetzen.Erstens hat das Training von Transformer seine eigenen Eigenschaften.Zweitens ist es notwendig, die Eigenschaften von Transformer zu nutzen, um spezielle Verbesserungen an CV-Aufgaben vorzunehmen, damit jeder sehen kann, was Transformer ist besser als CNN.
3. CNN hat bei vielen CV-Aufgaben Erfolge erzielt, aber es gibt immer noch einige Aufgaben, die noch nicht vollständig bewältigt sind.Beispielsweise kann bei einigen Aufgaben von Video die Erkennungsrate nicht die Genauigkeit der Gesichtserkennung und -erkennung erreichen.

Supongo que te gusta

Origin blog.csdn.net/PETERPARKERRR/article/details/125635190
Recomendado
Clasificación