Interpretation des BLIP2-Bildtext-Vorschulungspapiers


论文: 《BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models》
github: https://github.com/salesforce/LAVIS/tree/main/projects/blip2

Zusammenfassung

Die Kosten des Trainierens eines groß angelegten Vortrainingsmodells für visuelle Sprache sind relativ hoch. BLIP-2, das auf dem bestehenden Bildcodierer-Vortrainingsmodell basiert, verwendet ein groß angelegtes Sprachmodell, um das visuelle Sprachmodell vorzutrainieren; BLIP -2 verwendet ein leichtes zweistufiges Vortrainingsmodell Querying Transformer verringert die Lücke zwischen den Modalitäten. Die erste Stufe lernt die visuelle Sprachdarstellung vom Encoder für eingefrorene Bilder, und die zweite Stufe basiert auf dem Modell für eingefrorene Sprache, um von der Vision zur Sprache zu lernen Generation; BLIP-2 erreicht SOTA in verschiedenen visuellen Sprachmodellen. Zum Beispiel übertrifft es Flamingo80B um 8,7 % auf Zero-Shot VQAv2, was auch beweist, dass das Modell Zero-Shot-Bilder zu Text gemäß natürlicher Sprachführung generieren kann.

Das Problem lösen

End-to-End-Training des visuellen Sprachmodells erfordert ein groß angelegtes Modell und umfangreiche Daten, was kostspielig ist. Dieses Papier schlägt eine Methode vor, die auf dem bestehenden hochwertigen visuellen Modell und dem großen Sprachmodell für gemeinsames Training basiert. In Ordnung Um den Rechenaufwand zu reduzieren und ein Vergessen zu verhindern, schlägt der Autor das Trainingsmodell „eingefroren“ vor Features zu LLM, um Zieltext auszugeben.
Bildbeschreibung hier einfügen
Die Vorteile von BLIP-2 sind wie folgt:
1. Effiziente Verwendung von eingefrorenen, vortrainierten visuellen und Sprachmodellen
2. Aufgrund der umfangreichen Sprachmodellfähigkeit kann BLIP-2 eine Nullschuss-Bild-zu-Text-Erzeugung durchführen 3. Aufgrund
der Verwendung des eingefrorenen Einzelmodus-Vortrainingsmodells ist BLIP-2 recheneffizienter als bestehende SOTA-Lösungen;

Algorithmus

Um die visuellen Merkmale an den LLM-Textraum anzupassen, schlägt der Autor Q-Former vor, das ein zweistufiges Vortraining durchführt:
1. Eingefrorener Bildkodierer, um die visuelle Sprachdarstellung zu lernen,
2. Verwenden Sie eingefrorenes LLM, um die visuelle Sprachdarstellung zu lernen. Textgenerierung;

Modellstruktur

Wie in Abbildung 2 gezeigt, enthält Q-Former zwei Transformer-Submodule, die sich die Selbstaufmerksamkeitsebene teilen: Der Image Transformer (die linke Hälfte von Q-Former) interagiert mit dem Encoder für eingefrorene Bilder, um visuelle Merkmale zu extrahieren; der Text Transformer ( die rechte Hälfte von Q-Former ) kann sowohl als Text-Encoder als auch als Text-Decoder verwendet werden.
Die Abfrageeinbettung kann als Eingabe des Bildwandlers erlernt werden, interagiert über die Selbstaufmerksamkeitsebene, interagiert mit den eingefrorenen Bildmerkmalen über die Queraufmerksamkeitsebene und interagiert gleichzeitig mit dem Text über die Selbstaufmerksamkeitsebene . Gemäß der Vortrainingsaufgabe verwendet der Autor verschiedene Selbstaufmerksamkeitsmasken, um die Interaktion zwischen Abfragetext zu steuern; der Autor verwendet BERT-Basis BERT_{Basis}BER TBasis _Initialisieren Sie Q-Former, Cross-Attention-Layer für zufällige Initialisierung;
Bildbeschreibung hier einfügen

Lernen visueller sprachlicher Darstellungen über einen eingefrorenen Bildcodierer

Die Abfrage verbessert die visuelle Darstellung in Bezug auf den Text durch Lernen. Inspiriert von BLIP teilt der Autor das gleiche Eingabeformat und die gleichen Modellparameter durch drei objektive Funktionen. Jede objektive Funktion steuert die Interaktion zwischen Abfrage und Text durch verschiedene Aufmerksamkeitsmaskierungsstrategien, wie gezeigt in Figur 2 dargestellt;

Bild-Text Kontrastives Lernen (ITC)

ITC lernt, Bilddarstellungen und Textdarstellungen auszurichten, indem gepaarte und ungepaarte Bild-Text-Ähnlichkeiten verglichen werden; der Berechnungsprozess ist wie folgt:
Berechnen der Abfragedarstellung ZZ der Ausgabe des BildwandlersZ (gleiche Länge wie lernbare Abfrage) und Texttransformator-Ausgabetextdarstellungtt[CLS] Token-Ähnlichkeit in t , wählen Sie den Maximalwert als Ähnlichkeit des Bild-Text-Paares, um Informationslecks zu verhindern, verwendet der Autor eine Einzelmodus-Selbstaufmerksamkeitsmaske, die Abfrage und der Text können nicht von beiden gesehen werden andere, um ein direktes Lernen aus dem Text zu verhindern; da der Bildencoder Frozen Videospeicher freigibt, können Sie negative Batch-Samples verwenden, anstatt Warteschlangen wie in BLIP zu verwenden.

Bildbasierte Textgenerierung (ITG)

ITG trainiert Q-Former, um Text basierend auf dem Eingabebild zu generieren.Da Q-Former dem Bildkodierer nicht erlaubt, direkt mit dem Texttoken zu interagieren, werden die für die Textgenerierung erforderlichen Informationen durch die Abfrage extrahiert und an den Texttoken durchgereicht Selbstaufmerksamkeit, daher muss die Abfrage den Text erfassen Für alle Informationen verwendet der Autor eine multimodale kausale Selbstaufmerksamkeitsmaske, um die Abfrage-Text-Interaktion zu steuern. Die Abfrage kann das Texttoken nicht abrufen, und das aktuelle Texttoken kann alle abrufen Abfrage und ihr vorheriges Texttoken. Der Autor ersetzt das [CLS]-Token durch das [DEC]-Token als Token für die Dekodierungsaufgabe;

Bildtextabgleich (ITM)

ITM Um den verfeinerten Bildtextabgleich zu lernen, verwendet der Autor eine bidirektionale Selbstaufmerksamkeitsmaske, alle Abfragen und Texte sind füreinander sichtbar, sodass die Ausgabeabfrage, die Z einbettet, multimodale Informationen erfasst und Z Logit und Logit-Mittelwert erhält Wert durch einen zweitklassigen linearen Klassifikator Für den Matching-Score verwendet der Autor die schwierige Negativ-Sample-Mining-Strategie in „Align before Fuse“, um Negativ-Sample-Paare zu erzeugen.
Hard-Beispiel-Negativbeispiel-Mining-Strategie:
Wenn das Bild-Text-Paar eines Negativbeispiels die gleiche Semantik hat, sich aber in feinen Details unterscheidet, dann ist das Beispiel ein hartes Beispiel. Der Autor sucht im Stapel nach harten Negativen, indem er die Ähnlichkeit vergleicht. Für jedes Bild in einem Stapel nehmen wir gemäß der kontrastiven Ähnlichkeitsverteilung ein Negativtext aus demselben Stapel auf, wobei Text, der einem Bild ähnlicher ist, eine höhere Wahrscheinlichkeit hat, abgetastet zu werden. Ebenso sampelt der Autor für jeden Text ein hartes Negativbild.

Lernvision zur Sprachgenerierung aus groß angelegten Sprachmodellen

Der Autor verbindet Q-Former mit LLM und entfernt dann die Spracherzeugungsfähigkeit von LLM. Wie in Abbildung 3 gezeigt, wird die Abfrageeinbettungs-Z-Ausgabe der FC-Schicht auf die Texteinbettung des LLM abgebildet ; die auf der Grundlage des LLM Q-Former extrahierte visuelle Darstellung wird als weiche visuelle Eingabeaufforderung verwendet wurden vortrainiert, um visuelle Darstellungen zu extrahieren, die für Text nützlich sind, und das LLM auslagern, um die visuelle Textausrichtung zu lernen.
Bildbeschreibung hier einfügen
Der Autor experimentierte mit zwei Arten von LLM, Decoder-basiertem LLM und Encoder-Decoder-basiertem LLM.
Für Decoder-basiertes LLM verwendet der Autor den Sprachmodellierungsverlust für das Vortraining und eingefrorenes LLM für die Textgenerierung;
für Encoder-Decoder-basiertes LLM verwendet er Präfix-Sprachmodellierungsverlust für das Vortraining und teilt den Text in zwei Teile, die erste Hälfte des Textes und der visuellen Darstellung concat wird in den LLM-Codierer eingegeben, und die zweite Hälfte wird als Erzeugungsziel des LLM-Decoders verwendet.

Modell Vorschulung

Daten vor dem Training

BLIP-2 verwendet die gleichen Daten wie BLIP, 129 Millionen Bilder, einschließlich COCO, Visual Genome, CC3M, CC12M, SBU, davon 115 Millionen von LAION400M, verwenden CapFilt, um Bildunterschriften für Netzwerkbilder zu generieren , die spezifischen Schritte sind wie folgt:
1. Verwenden Sie BLIP groß BLIP_{groß }B L I Pl a r g e10 Bildunterschriften generieren
2. 10 Bildunterschriften + originale Web-Bildunterschriften generieren und die Ähnlichkeit zwischen den entsprechenden Bildern durch das CLIP ViT-L/14-Modell sortieren 3.
top2 als Bildunterschrift auswählen und als Trainingsdaten verwenden;

Vortrainierter Bildkodierer und LLM

Zwei SOTA Visual Transformer Vortrainingsmodelle:
ViT-L/14 von CLIP, ViT-G/14 von EVA-CLIP
Entfernen Sie die letzte Ebene von ViT und verwenden Sie die vorletzte Ebene von Merkmalen.
LLM-Modell:
OPT für unbeaufsichtigtes Training als Decoder-basiertes LLM,
FlanT5 für anweisungsbasiertes Training als Encoder-Decoder-basiertes LLM

Einstellungen vor dem Training

Die erste Trainingsstufe umfasst 250.000 Schritte, die zweite Trainingsstufe 80.000 Schritte, ViT und LLM werden in FP16 konvertiert und FlanT5 wird in BFloat16 konvertiert.Der Autor stellte fest, dass es im Vergleich zu 32-Bit keine Leistungseinbußen gibt; Aufgrund der Verwendung des eingefrorenen Modells ist das Vortraining des Autors größer als der aktuelle Maßstab Die VLP-Methode hat einen geringen Berechnungsaufwand Auf 16 A100 (40G), die erste Stufe des Trainings für ViT-G und FlanT5-XXL dauert 6 Tage, und die zweite Stufe dauert weniger als 3 Tage.

Experiment

Tabelle 1 stellt die Leistung von BLIP-2 bei verschiedenen Zero-Shot-Visual Language-Aufgaben dar. Verglichen mit dem vorherigen SOTA-Verfahren ist die Leistung verbessert und die Trainingsparameter sind stark reduziert;
Bildbeschreibung hier einfügen

Bootstrap-Zero-Shot-Bild-zu-Text-Generierung

BLIP-2 ermöglicht es LLM, Bilder zu verstehen, während die Fähigkeit erhalten bleibt, Textaufforderungen zu folgen; der Autor fügt einfache Textaufforderungen nach visuellen Aufforderungen hinzu. Abbildung 4 zeigt BLIP-2-Zero-Sample-Bildtextgenerierungsfunktionen, einschließlich: visuelle Wissensbegründung , Visual Resonance Reasoning , visueller Dialog, personalisierte Bild-zu-Text-Generierung und mehr.
Bildbeschreibung hier einfügen

Zero-Shot-VQA

Tabelle 2 zeigt, dass BLIP-2 SOTA in VQAv2- und GQA-Datensätzen erreicht.
Tabelle 2 führt zu einem vielversprechenden Ergebnis: Ein besserer Bildcodierer oder ein besseres LLM-Modell verbessert die BLIP-2-Leistung;
basierend auf OPT oder FlanT5 übertrifft die BLIP-2-Leistung mit ViT-G die mit VIT-L;
Bildcodierung Das Gerät ist repariert , und die Leistung von BLIP-2 bei Verwendung eines großen LLM-Modells übertrifft die bei Verwendung eines kleinen Modells;
bei VQA ist die Leistung von FlanT5 basierend auf Instruktionstraining besser als die von unbeaufsichtigtem Training OPT; die
Bildbeschreibung hier einfügen
erste Stufe des Vortrainings ermöglicht Q Abbildung 5 zeigt, dass das Repräsentationslernen für das generative Lernen effektiv ist , wenn es um das Erlernen visueller Repräsentationen im Zusammenhang mit Text geht.Ohne Repräsentationslernen sinkt die Leistung der beiden LLM-Modelle bei der Nullschuss-VQA-Aufgabe erheblich.
Bildbeschreibung hier einfügen

Bildbeschreibung

Tabelle 3 zeigt, dass BLIP-2 die SOTA-Leistung in NoCaps erreicht, was beweist, dass es eine starke Fähigkeit hat, Out-Domain-Images zu generieren.
Bildbeschreibung hier einfügen

visuelles Quiz

Die Ausgabe des Q-Former und die Frage werden als Eingabe des LLM verwendet, und das LLM generiert die entsprechende Antwort.Um die mit der Frage verbundenen Bildmerkmale zu extrahieren, gibt der Autor die Frage in den Q-Former ein, interagiert mit der Abfrage durch die Selbstaufmerksamkeitsebene und leitet die Quer- Die Aufmerksamkeitsebene schenkt dem effektiven Bereich in der Grafik mehr Aufmerksamkeit . Tabelle 4 zeigt, dass BLIP-2 SOTA unter den offenen generativen Modellen erreicht.
Bildbeschreibung hier einfügen

Abrufen von Bildtexten

Der Bild-Text-Abruf erfordert kein Sprachmodell. Der Autor optimiert den Bild-Encoder und Q-Former im COCO-Datensatz und führt den Bild-Text-Abruf und den Text-Bild-Abruf in den COCO- und Flickr30K-Datensätzen durch. Der Autor wählt zunächst 128 Bilder aus basierend auf der Ähnlichkeit von Bild-Text-Merkmalen, Mustern und dann nach ITM-Score sortiert.
Wie in Tabelle 5 gezeigt, erreicht BLIP-2 SOTA beim Bild-Text-Abruf ohne Stichproben, was im Vergleich zu bestehenden Verfahren erheblich verbessert ist.
Bildbeschreibung hier einfügen
Tabelle 6 zeigt, dass der ITG-Verlust auch für die Bild-Text-Wiedergewinnung hilfreich ist, da die ITG-Verlust-Moderator-Abfrage visuelle Merkmale in Bezug auf Text extrahiert.
Bildbeschreibung hier einfügen

Grenze

Wenn das LLM-Modell kontextbezogene VQA-Beispiele verwendet, verbessert BLIP-2 die Leistung bei der VQA-Aufgabe nicht.Der Autor ordnet den Datensatz vor dem Training nur einem Paar von Bild-Text-Beispielenzu und kann die Korrelation zwischen mehreren Bild-Text-Paaren nicht lernen in einer Sequenz Sex.
BLIP-2 weist noch einige Mängel bei der Bildtextgenerierungsaufgabe auf: Ungenaues LLM-Wissen, falscher Argumentationspfad und Mangel an relevanten Informationen für einige neue Bilder, wie in Abbildung 6 gezeigt.
Bildbeschreibung hier einfügen

abschließend

BLIP-2 ist ein universelles und recheneffizientes Vortrainingsschema für visuelle Sprache. Unter Verwendung von eingefrorenem vortrainiertem Bildcodierer und LLM hat es SOTA in mehreren visuellen Sprachaufgaben erreicht, und es wurde auch bewiesen, dass dies möglich ist generiert in Zero-Sample-instruierter Bild-zu-Text-Fähigkeit.

Guess you like

Origin blog.csdn.net/qq_41994006/article/details/129221701