LLaVA (NeurIPS 2023, mündlich) – Interpretation von Grafik- und Text-Chat-Modellpapier


Papier: „Visual Instruction Tuning“
Github: https://github.com/haotian-liu/LLaVA/tree/main

Zusammenfassung

Es hat sich gezeigt, dass die Feinabstimmung des LLM mithilfe der generierten Anweisungen die Zero-Shot-Fähigkeiten verbessert, dieses Schema wurde jedoch im multimodalen Bereich nicht validiert. Der Autor versucht, GPT-4 zu verwenden, um multimodale Sprachbilddaten zu generieren. Durch die Feinabstimmung dieser generierten Daten stellen die Autoren LLaVA vor, ein multimodales Modell, das einen visuellen Encoder für allgemeines Sehen und Sprachverständnis mit LLM kombiniert. Der Autor erstellt zwei Bewertungsbenchmarks. LLaVA demonstriert multimodale Chat-Fähigkeiten, selbst mit unsichtbaren Bildern/Anweisungen, und erreicht einen relativen GPT-4-Score von 85,1 % in einem multimodalen Datensatz. Nach der Feinabstimmung des Science-QA-Datensatzes hat The Die Bindung von LLaVA an GPT-4 erreichte 92,53 %.

Einführung

Die Beiträge dieses Artikels sind wie folgt:

  • Multimodale Anweisungen folgen Daten. Der Autor schlägt einen Datentransformationsprozess vor, der ChatGPT/GPT-4 verwendet, um Bild-Text-Paare in ein Befehlsfolgenformat umzuwandeln.
  • Multimodales Modell (LMM). Der Autor schlug LMM vor, das den visuellen Encoder und den Sprachdecoder von CLIP verbindet und den generierten Befehl nach dem Datensatz optimiert. Nach der Integration mit GPT-4 erreicht es SoTA im Science-QA-Datensatz.
  • Multimodaler Unterricht nach Benchmarks.
  • Open Source.

GPT unterstützt die Generierung visueller Anleitungsdaten

Eine einfache Möglichkeit, Daten zu generieren, ist:
Mensch: X q, X v, A-Assistent: X c Mensch: X_q,X_v, Assistent: X_cMensch : X _ _q,XvA ss i s t an t : Xc
Obwohl diese Lösung kostengünstig ist, mangelt es ihr an Vielfalt und Argumentationstiefe .
Um dieses Problem zu lindern, verwendet der Autor GPT-4 oder ChatGPT als Lehrer . Um Bilder in visuelle Funktionen zu kodieren, um GPT aufzufordern, das nur Text unterstützt, verwendet der Autor zwei Arten von Darstellungen, wie in Tabelle 14 gezeigt:
1. Bildunterschrift aus verschiedenen Blickwinkeln Beschreiben Sie die visuelle Szene.
2. Der Begrenzungsrahmen lokalisiert das Ziel in der Szene, und jeder Rahmen kodiert das Ziel und seine räumliche Position.
Dadurch wird das Bild in eine LLM-erkennbare Sequenz kodiert.
Basierend auf dem COCO-Datensatz gibt der Autor die obigen Darstellungen anstelle von Bildern in GPT-4 ein und generiert drei Arten von Anleitungsdaten für Anweisungen, wie in Tabelle 14 dargestellt. Dialog, detaillierte Beschreibung, komplexe Argumentation.
Der Autor hat insgesamt 158.000 grafische und textliche Anleitungsdaten gesammelt.
Fügen Sie hier eine Bildbeschreibung ein

Feinabstimmung der visuellen Anleitung

Struktur

Wie in Abbildung 1 gezeigt, gilt für das Eingabebild X v X_vXv, Der Autor verwendet den visuellen Encoder ViT-L/14 im Pre-Training-CLIP, um das visuelle Merkmal Z v Z_v zu codierenZvDer Autor verwendet die trainierbare Zuordnungsmatrix WWAllgemeines W Z v Z_vZvKonvertieren Sie das Spracheinbettungstoken H v in das Token H_vtok e n H _ _v, was die gleiche räumliche Dimension wie die Worteinbettung hat.
Fügen Sie hier eine Bildbeschreibung ein

Zug

Für jedes Bild X vXvErzeugen Sie mehrere Runden von Dialogdaten (X q 1 , X a 1 , ⋅ ⋅ ⋅ , X q T , X a T ) (X^1_q,( XQ1,XA1,⋅⋅⋅,XQT,XAT) Berechnen Sie für die Sequenzlänge L die ZielantwortX a X_aXaEine Möglichkeit, wie Gleichung 3, besteht
Fügen Sie hier eine Bildbeschreibung ein
darin, beim Training des LLaVA-Modells eine zweistufige Befehlsfeinabstimmung zu verwenden:
Stufe 1: Vortraining für die Merkmalsausrichtung.
Eingefrorener visueller Encoder, LLM-Gewichte, durch Training der Mapping-Matrix WWW maximiert die Wahrscheinlichkeitsfunktion in Gleichung 3. Auf diese Weise weist das BildH v H_vHvAusgerichtet auf vorab trainierte LLM-Worteinbettung.
Stufe 2: End-to-End-Feinabstimmung
des eingefrorenen visuellen Encoders und Aktualisierung der Zuordnungsebene LLM in LLaVA. Der Autor betrachtet zwei spezifische Anwendungsszenarien:
Multimodaler Chatbot: Feinabstimmung basierend auf den 158K-Bild- und Textdaten im vorherigen Abschnitt.
Wissenschaftliche Qualitätssicherung:

Experiment

Multimodaler Chatbot

Fügen Sie hier eine Bildbeschreibung ein
Wie in Tabelle 3 gezeigt, bietet LLaVA eine umfassendere Antwort.

Quantitative Bewertung

Der Autor verwendet GPT-4, um die Qualität der generierten Antworten zu testen. Insbesondere sagt LLaVA Antworten basierend auf Bildern und Fragen voraus, verwendet die Ergebnisse der GPT-4-Vorhersagegenerierung als theoretische Obergrenze und sendet die beiden Antworten zusammen zur Bewertung der Bewertung an GPT-4 . Da es sich bei der GPT-4-Eingabe um eine Bildbeschreibung handelt, verwenden die Autoren relative Bewertungen . Anschließend wurden zwei Basislinien erstellt, um die Modellleistung zu bewerten.

LLaVA-Bank (COCO)

Wählen Sie in COCO zufällig 30 Bilder aus und generieren Sie für jedes Bild drei Arten von Fragen. Der Autor verwendete verschiedene Trainingssätze, um die Auswirkungen auf das Modell zu untersuchen. Die Ergebnisse sind in Tabelle 4 dargestellt . Durch die Optimierung der Anweisungen kann es erheblich um 50 Punkte verbessert werden ; das Hinzufügen einer kleinen Menge detaillierter Beschreibungen und komplexer Fragen kann um 7 verbessert werden Punkte, und es verbessert auch die Leistung der Konversationsfähigkeit . Schließlich erreichte die Verwendung von drei Arten von Fragen 85,1 %.
Fügen Sie hier eine Bildbeschreibung ein

LLaVA-Bank (In-the-Wild)

Um die Fähigkeit des Modells bei anspruchsvolleren Aufgaben zu testen, wählte der Autor 24 Bilder mit umfangreichem Inhalt und 60 Fragen aus und verglich sie in Tabelle 5 mit BLIP und OpenFlamingo. LLaVA erreichte bei komplexen Gesprächen 81,7 % und eine Gesamtpunktzahl von 67,3 %.
Fügen Sie hier eine Bildbeschreibung ein

Grenze

Wie in Tabelle 6 gezeigt, liefert der Autor zwei Beispiele für Bildunterschriften im Zusammenhang mit Fragen. Um auf den Namen des Restaurants zu antworten, benötigt das Modell auf der linken Seite der Abbildung mehrsprachige Verständnisfähigkeiten. Um die Beilagen zu beschreiben, muss das Modell in der Lage sein, relevante multimodale Informationen aus dem Internet abzurufen . Im Bild rechts ist die Antwort auf die Frage, ob es Joghurt mit Erdbeergeschmack gibt, falsch, obwohl sich im Kühlschrank nur Erdbeeren und Joghurt befinden.
Fügen Sie hier eine Bildbeschreibung ein

ScienceQA

Die Ergebnisse sind in Tabelle 7 aufgeführt. Nach 12 Epochen des Trainings erreichte die Genauigkeit 90,92 %. Mit GPT-4 als Ergänzung erreichte sie 90,97 %. Mit GPT-4 wurde die beste Antwort aus der Ausgabe von GPT-4 und LLaVA ausgewählt erreichte 92,53 %.
Fügen Sie hier eine Bildbeschreibung ein

Ablationsexperiment

Das Ablationsexperiment für den ScienceQA-Datensatz ist in Tabelle 8 dargestellt.
Die visuellen Merkmale der letzten Schicht sind 0,96 % niedriger als die Merkmale der vorherigen Schicht . Um die Argumentation der Modellvorhersage und die Reihenfolge der Antworten
zu überprüfen , sagen Sie zuerst die Antwort voraus, was 12 erfordert Epochen, um 89,77 % zu erreichen; und die erste prädiktive Inferenz benötigt nur 6 Epochen, um 89,77 % zu erreichen, sodass die prädiktive Inferenz zuerst die Anpassung beschleunigen kann . Ohne Vortraining erreicht das Modell nur 85,71 %, der Autor trainierte das 13B-Modell auf 90,92 % und das 7B-Modell erreichte nur 89,84 %, was darauf hinweist, dass die Modellgröße einen relativ großen Einfluss hat .


Fügen Sie hier eine Bildbeschreibung ein

abschließend

Dieses Papier demonstriert die Wirksamkeit der Feinabstimmung visueller Anweisungen. Demonstrieren Sie eine Erstellungssprache – Bildanweisungen folgen dem Datensatzprozess, trainieren LLaVA darauf basierend und erreichen SOTA nach der Feinabstimmung des ScienceQA-Datensatzes.

Acho que você gosta

Origin blog.csdn.net/qq_41994006/article/details/135249416
Recomendado
Clasificación