[Verarbeitung natürlicher Sprache | Transformers] Einführungssammlung für allgemeine Algorithmen von Transformers (8)

一、Adaptively Sparse Transformer

Der adaptive Sparse-Transformator ist eine Art Transformator.

Fügen Sie hier eine Bildbeschreibung ein

2. I-BERT

I-BERT ist eine quantisierte Version von BERT, die reine Ganzzahlarithmetik verwendet, um die gesamte Inferenz zu quantisieren. Basierend auf einfachen, rein ganzzahligen Approximationsmethoden für nichtlineare Operationen, wie GELU, Softmax und Layer-Normalisierung, führt es eine durchgängige rein ganzzahlige BERT-Inferenz ohne Gleitkommaberechnungen durch.

Insbesondere werden GELU und Softmax mithilfe leichter Polynome zweiter Ordnung angenähert, die mithilfe reiner Ganzzahlarithmetik ausgewertet werden können. Für LayerNorm werden nur Ganzzahlberechnungen durchgeführt, indem bekannte Quadratwurzel-Ganzzahlberechnungsalgorithmen genutzt werden.

Fügen Sie hier eine Bildbeschreibung ein

3. SqueezeBERT

SqueezeBERT ist eine effiziente Architekturvariante von BERT für die Verarbeitung natürlicher Sprache mithilfe gruppierter Faltungen. Es ähnelt stark der BERT-Basis, verfügt jedoch über positionelle Feedforward-Verbindungsschichten, die in Faltungsform implementiert sind, und viele Schichten gruppierter Faltungen.

Fügen Sie hier eine Bildbeschreibung ein

四、Feedback-Transformator

Ein Rückkopplungstransformator ist ein sequentieller Transformator, der alle vorherigen Darstellungen allen zukünftigen Darstellungen aussetzt, was bedeutet, dass die niedrigste Darstellung im aktuellen Zeitschritt aus der abstrakten Darstellung der höchsten Ebene in der Vergangenheit gebildet wird. Diese Feedbackeigenschaft ermöglicht es der Architektur, rekursive Berechnungen durchzuführen und iterativ stärkere Darstellungen früherer Zustände aufzubauen. Um dieses Ziel zu erreichen, wird der Standard-Transformer-Selbstaufmerksamkeitsmechanismus so modifiziert, dass er sich auf Darstellungen höherer Ebene und nicht auf niedrigerer Ebene konzentriert.

Fügen Sie hier eine Bildbeschreibung ein

五、Sandwich-Transformator

Ein Sandwich-Transformator ist eine Variante eines Transformators, der Unterschichten in der Architektur neu anordnet, um eine bessere Leistung zu erzielen. Die Neuordnung basiert auf der Analyse der Autoren, dass Modelle mit mehr Selbstaufmerksamkeit nach unten und mehr Feedforward-Unterschichten nach oben tendenziell insgesamt eine bessere Leistung erbringen.

Fügen Sie hier eine Bildbeschreibung ein

6. MixText

MixText ist eine halbüberwachte Lernmethode zur Textklassifizierung, die eine neue Datenerweiterungsmethode namens TMix verwendet. TMix erstellt eine große Anzahl erweiterter Trainingsbeispiele, indem es Text in den verborgenen Bereich einfügt. Die Technik nutzt Fortschritte in der Datenerweiterung, um Beschriftungen mit niedriger Entropie für unbeschriftete Daten zu erraten, sodass diese genauso einfach zu verwenden sind wie beschriftete Daten.

Fügen Sie hier eine Bildbeschreibung ein

7. ALDEN

ALDEN (Active Learning with DivErse iNterpretations) ist eine aktive Lernmethode zur Textklassifizierung. Durch lokale Interpretation in DNN identifiziert ALDEN linear trennbare Bereiche von Proben. Anschließend werden Stichproben anhand der Vielfalt lokaler Interpretationen ausgewählt und deren Bezeichnungen abgefragt.

Konkret berechnen wir zunächst die lokale Interpretation jeder Stichprobe im DNN als Gradienten-Rückausbreitung von der endgültigen Vorhersage zu den Eingabemerkmalen. Anschließend messen wir die Vielfalt anhand der unterschiedlichsten Wortinterpretationen in der Stichprobe. Daher wählen wir unbeschriftete Proben mit den größten unterschiedlichen Interpretationen für die Beschriftung aus und trainieren das Modell mithilfe dieser markierten Proben neu.

Fügen Sie hier eine Bildbeschreibung ein

八、Duales kontrastives Lernen

Kontrastives Lernen hat beim Repräsentationslernen durch Selbstüberwachung in unbeaufsichtigten Umgebungen bemerkenswerte Erfolge erzielt. Allerdings bleibt die effektive Anpassung des kontrastiven Lernens an überwachte Lernaufgaben in der Praxis eine Herausforderung. In dieser Arbeit stellen wir ein Dual-Contrastive-Learning-Framework (DualCL) vor, das gleichzeitig die Merkmale von Eingabeproben und die Parameter des Klassifikators im selben Raum lernen kann. Insbesondere behandelt DualCL die Parameter des Klassifikators als erweiterte Stichproben, die verschiedenen Bezeichnungen zugeordnet sind, und nutzt dann kontrastives Lernen zwischen Eingabestichproben und erweiterten Stichproben. Empirische Studien zu fünf Benchmark-Textklassifizierungsdatensätzen und ihren ressourcenarmen Versionen zeigen Verbesserungen der Klassifizierungsgenauigkeit und bestätigen die Fähigkeit von DualCL, diskriminierende Darstellungen zu lernen.

9. Lbl2TransformerVec

Supongo que te gusta

Origin blog.csdn.net/wzk4869/article/details/132986180
Recomendado
Clasificación