Die „Reformer“ von Google und der UC Berkeley führen 64K-Sequenzen auf einer einzigen GPU aus

Transformatormodelle sind eine immer beliebter werdende neuronale Netzwerkarchitektur in der Forschung zur Verarbeitung natürlicher Sprache (NLP), bei der große Transformatoren bei vielen Aufgaben Spitzenleistungen erbringen können. Der Nachteil besteht in einem übermäßigen Rechenaufwand und den Kosten des Konverters, insbesondere beim Trainieren von Modellen für lange Sequenzen.

Ein aktuelles Papier von Forschern von Google und der UC Berkeley, das von der renommierten International Conference on Representation Learning (ICLR 2020) angenommen wurde, schlägt ein neues Transformatormodell namens „Reformer“ vor, das selbst dann eine beeindruckende Leistung erzielt, wenn es nur auf einer einzigen GPU läuft.

Um die Effizienz des Transformators zu verbessern, ersetzten die Forscher die Skalarproduktaufmerksamkeit durch ortssensitives Hashing (LSH) und änderten die Komplexität von O(L2) in O(L log L), wobei sich L auf die Länge der Sequenz bezieht. LSH ist eine algorithmische Technik für die Suche nach nächsten Nachbarn bei der Suche nach ähnlichen Elementen aus großen Datenmengen.

Die Forscher verwendeten auch reversible Restschichten anstelle von Standard-Residuen, wodurch Aktivierungen während des Trainings nur einmal statt N-mal gespeichert werden konnten (wobei N die Anzahl der Schichten darstellt). Im Vergleich zum Transformer-Modell weist das endgültige Reformer-Modell eine ähnliche Leistung auf, weist jedoch eine höhere Speichereffizienz und eine schnellere Geschwindigkeit bei langen Sequenzen auf.

Die Forscher führten Experimente mit der Bilderzeugungsaufgabe imagenet12 mit einer Länge von 64 KB und der Textaufgabe enwik64 mit einer Länge von 8 KB durch, um den herkömmlichen Transformator mit dem vorgeschlagenen reversiblen Transformator zu vergleichen. Beide Transformatoren haben die gleiche Anzahl an Parametern und nahezu die gleiche Lernkurve. Experimentelle Ergebnisse zeigen, dass reversible Transformatoren Speicherplatz sparen, ohne dass die Genauigkeit darunter leidet.
Einfluss des gemeinsamen Abfrageschlüsselraums (links) und der Reversibilität (rechts) auf die Trainingsleistung von enwik8 und imagenet64.  Die Kurve zeigt die Bits pro Dark der gespeicherten Daten.
Die LSH-Aufmerksamkeit ist eine Annäherung an die volle Aufmerksamkeit und ihre Genauigkeit verbessert sich mit der Hashrate. Wenn der Hash-Wert 8 beträgt, entspricht die LSH-Aufmerksamkeit fast der vollen Aufmerksamkeit. Im Allgemeinen steigt der Rechenaufwand des Modells mit der Hashrate. Dadurch können Forscher die Hashrate entsprechend ihrem Rechenbudget anpassen.
LSH-Aufmerksamkeitsleistung als Funktion der Hashing-Runden auf imagenet64.
Die Forscher testeten die Aufmerksamkeitsleistung von LSH auf enwik8, wobei sich auch ein Zusammenhang zwischen Geschwindigkeit und Sequenzlänge für verschiedene Aufmerksamkeitstypen zeigte, während die Gesamtzahl der Token konstant blieb. Die Ergebnisse zeigen, dass die konventionelle Aufmerksamkeit mit zunehmender Sequenzlänge langsamer wird, während die LSH-Aufmerksamkeitsgeschwindigkeit stabil bleibt.
(Links) LSH-Aufmerksamkeitsleistung als Funktion der Anzahl der oberen Schichten auf enwik8, (rechts) Aufmerksamkeitsbewertungsgeschwindigkeit als Funktion der vollen Aufmerksamkeit und der LSH-Aufmerksamkeitseingabelänge.
Das Papier wurde vom ICLR 2020 mit einer nahezu perfekten Punktzahl von „8, 8, 6“ ausgewählt. Die Forschung wurde von der Forschungsgemeinschaft gut aufgenommen und wird voraussichtlich erhebliche Auswirkungen auf das Fachgebiet haben.

Der Artikel „Reformers: Efficient Transformers“ wurde auf OpenReview veröffentlicht.

Ich denke du magst

Origin blog.csdn.net/virone/article/details/131805170
Empfohlen
Rangfolge