Grundlegende Abschlussarbeit (6)——BeiT

BEiT ist das erste Unternehmen, das das BERT-Modell erfolgreich im Bildbereich einsetzt. Es ist auch eine Form des selbstüberwachten Trainings und wird daher als BERT-Vortrainingsmodell von Visual Transformer bezeichnet. Diese Arbeit nutzt eine clevere Methode, um die Trainingsideen von BERT erfolgreich in der Bildaufgabe zu nutzen.

BERT : Bidiraktionale (双向) Encoder-Darstellungen von Transformers

SSL Selbstüberwachtes Lernen : Maschinelles Lernen ist in überwachtes Lernen, unüberwachtes Lernen und Verstärkungslernen, selbstüberwachtes Lernen und selbstüberwachtes Lernen unterteilt, das möglicherweise nicht direkt einer bestimmten Aufgabe gegenübersteht, unbeaufsichtigtes Vortraining und überwachte Feinabstimmung Es ist allgemeiner Natur und muss zur Bewältigung nachgelagerter Aufgaben (Downstream Tasks) geleitet werden.

1. BERT

BERT hat zwei Ziele: Das eine besteht darin, den fehlenden Teil vorherzusagen, und das andere darin, die Kontextsemantik vorherzusagen.
Fügen Sie hier eine Bildbeschreibung ein
Selbstüberwachtes Lernen : Stellen Sie sich vor, einen Teil der Eingabe nicht zu sehen, und lernen Sie, ihn vorherzusagen. Vortäuschen bedeutet hier, diesen Teil (den gelöschten Teil) als Etikett zur Überwachung des Modells zu verwenden. Wenn Sie ein Bild verwenden, um es zu zeigen, ist es das Beispiel in der folgenden Abbildung. „Großartig“ wird gelöscht. Ich hoffe, dass das BERT-Modell lernen wird, die fehlenden Teile vorherzusagen. Es kann mehr als einen unsichtbaren Teil geben.
Fügen Sie hier eine Bildbeschreibung ein

2. BeiT (BERT->CV)

Wie führt man SSL für ein Bild durch?

Die Eingabe wird zu einem Bild, von dem ein Teil sichtbar und ein Teil unsichtbar ist.
Fügen Sie hier eine Bildbeschreibung ein