SELBSTAUFMERKSAMKEIT BRAUCHT KEINEN O(n2)-SPEICHER

Hintergrund

Der Hauptzweck besteht darin, das Problem der Komplexität des Selbstaufmerksamkeitsraums zu lösen, da der Speicherplatz für GPU-Berechnungen sehr wertvoll ist und Oom-Probleme auftreten, wenn die Sequenzlänge lang ist.

Lösen Sie das Selbstaufmerksamkeitsproblem in linearer Zeit

Fügen Sie hier eine Bildbeschreibung ein

Beheben Sie Probleme mit der Datenstabilität

Da es aufgrund der Summationsberechnung leicht dazu kommen kann, dass die Gleitkommazahl den Maximalwert überschreitet und zu einem ungültigen Ergebnis wird, wird die Maximalwert-Regularisierung für das Ergebnis durchgeführt.
Fügen Sie hier eine Bildbeschreibung ein

Ich denke du magst

Origin blog.csdn.net/WitsMakeMen/article/details/131606106
Empfohlen
Rangfolge