Hintergrund
Der Hauptzweck besteht darin, das Problem der Komplexität des Selbstaufmerksamkeitsraums zu lösen, da der Speicherplatz für GPU-Berechnungen sehr wertvoll ist und Oom-Probleme auftreten, wenn die Sequenzlänge lang ist.
Lösen Sie das Selbstaufmerksamkeitsproblem in linearer Zeit
Beheben Sie Probleme mit der Datenstabilität
Da es aufgrund der Summationsberechnung leicht dazu kommen kann, dass die Gleitkommazahl den Maximalwert überschreitet und zu einem ungültigen Ergebnis wird, wird die Maximalwert-Regularisierung für das Ergebnis durchgeführt.