Verarbeitung natürlicher Sprache vom Eintrag bis zur Anwendung – dynamisches Wortvektor-Vortraining: ELMo-Wortvektor

Kategorie: Gesamtkatalog „Natürliche Sprachverarbeitung vom Einstieg bis zur Anwendung“


Nachdem das Vortraining des bidirektionalen Sprachmodells abgeschlossen ist, kann der Codierungsteil des Modells (einschließlich der Eingabedarstellungsschicht und des mehrschichtigen gestapelten LSTM) zur Berechnung der dynamischen Wortvektordarstellung eines beliebigen Textes verwendet werden. Der natürlichste Ansatz besteht darin, die Ausgabe der letzten verborgenen Schicht der beiden LSTMs als dynamische Vektordarstellung von Wörtern zu verwenden. Im ELMo-Modell bedeuten jedoch unterschiedliche Ebenen von Vektoren verborgener Ebenen unterschiedliche Ebenen oder Granularität der Textinformationen. Beispielsweise codiert die LSTM-Darstellung der verborgenen Schicht näher an der Oberseite normalerweise mehr semantische Informationen, während die Darstellung der verborgenen Schicht näher an der untersten Schicht (einschließlich der Eingabedarstellung xx) codiertx ) konzentriert sich mehr auf lexikalische und syntaktische Informationen. Unterschiedliche nachgelagerte Aufgaben stellen unterschiedliche Anforderungen an die Wortdarstellung. Beispielsweise ist für Aufgaben wie das Leseverständnis und die automatische Beantwortung von Fragen der Bedarf an semantischen Informationen hoch; für Aufgaben wie die Erkennung benannter Entitäten sind lexikalische und syntaktische Informationen wichtiger. Daher verwendet ELMo einen Mechanismus zur gewichteten Mittelung von Vektordarstellungen auf verschiedenen Ebenen, um mehr Kombinationsfreiheitsgrade für verschiedene nachgelagerte Aufgaben bereitzustellen. SeiR t R_tRtZeigt wt w_t anwtDie Menge aller Zwischenzustandsvektordarstellungen von, dann:
R t = { xt , ht , j ∣ j = 1 , 2 , ⋯ , L } R_t=\{x_t, h_{t, j}|j=1, 2 , \cdots, L\}Rt={ xt,Ht , jj=1 ,2 ,,L }

式中, ht , j = [ h ← t , j , h → t , j ] h_{t, j}=[\overleftarrow{h}_{t, j}, \overrightarrow{h}_{t, j }]Ht , j=[H t , j,H t , j] stellt den Vektor dar, der nach der Verkettung der Ausgabe der vorwärts und rückwärts verborgenen Schichten jeder Schicht in den beiden mehrschichtigen gestapelten LSTMs erhalten wird. Seiht , 0 = xt h_{t, 0}=x_tHt , 0=Xt, dann kann der ELMo-Wortvektor ausgedrückt werden als:
ELMo t = f ( R t , Ψ ) = γ task ∑ j L sj task ht , j \text{ELMo}_t=f(R_t, \Psi)=\gamma^ \text {Aufgabe}\sum_j^Ls^\text{Aufgabe}_jh_{t, j}ELMot=f ( Rt,P )=CAufgabeJLSJAufgabeHt , j

式中, Ψ = { s task , γ task } \Psi=\{s^\text{task}, \gamma^\text{task}\}Ps={ sAufgabe ,Ctask }ist ein zusätzlicher Parameter, der zur Berechnung des ELMo-Vektors benötigt wird;s task s^\text{task}SDie Aufgabe stellt das Gewicht jedes Vektors dar und spiegelt die Bedeutung jeder Vektorschicht für die Zielaufgabe wider. Sie kann durch Normalisieren eines Parametersatzes gemäß der Softmax-Funktion berechnet werden, und der Gewichtsvektor kann während des Downstream-Trainingsprozesses gelernt werden Aufgaben; γ Aufgabe \gamma ^\text{Aufgabe}CDer Aufgabenkoeffizient hängt auch mit der nachgelagerten Aufgabe zusammen, und der ELMo-Vektor kann entsprechend skaliert werden, wenn der ELMo-Vektor in Verbindung mit anderen Vektoren verwendet wird. Bei der Verwendung von ELMo-Vektoren als Wortmerkmale für nachgelagerte Aufgaben werden die Parameter des Encoders „eingefroren“ und nehmen nicht an der Aktualisierung teil. Zusammenfassend weist die ELMo-Vektordarstellung die folgenden drei Merkmale auf:

  • Dynamisch (kontextsensitiv): Die ELMo-Vektordarstellung eines Wortes wird durch seinen aktuellen Kontext bestimmt
  • Robust (Robust): Die ELMo-Vektordarstellung verwendet Eingaben auf Zeichenebene, die robust gegenüber nicht registrierten Wörtern sind
  • Hierarchie: ELMo-Wortvektoren werden aus den Vektordarstellungen jeder Ebene im Deep-Pre-Training-Modell kombiniert, was eine größere Nutzungsfreiheit für nachgelagerte Aufgaben bietet.

Die folgende Abbildung zeigt die Gesamtstruktur des ELMo-Modells:
ELMo-Modell

Vor- und Nachteile von ELMo

ELMo realisiert die Konvertierung von der statischen Worteinbettung zur dynamischen Worteinbettung und von der Worteinbettung zur szenenhaften Worteinbettung, wodurch das Problem der Polysemie besser gelöst wird. Da ELMo jedoch Bi-LSTM verwendet, handelt es sich immer noch um ein automatisches Regressionsproblem, sodass seine Parallelitätsfähigkeit beeinträchtigt wird. Wenn eine große Anzahl von Korpora als Trainingsdaten erforderlich ist, wirkt sich diese Einschränkung auch direkt auf die Leistung und Skalierbarkeit aus. ELMo hat zwei Hauptvorteile:

  • Verwirklichen Sie den Übergang von der einfachen Worteinbettung (Word Embedding) zur kontextualisierten Worteinbettung (Contextualized Word Embedding).
  • Realisieren Sie die Transformation des Pre-Training-Modells von statisch zu dynamisch

Gleichzeitig weist ELMo auch Nachteile auf: Der Merkmalsextraktor des ELMo-Vortrainingsmodells verwendet ein bidirektionales zyklisches neuronales Netzwerk (z. B. Bi-LSTM), und das Training des zyklischen neuronalen Netzwerks muss von links nach rechts sequenziert werden oder von rechts nach links, was die Fähigkeit zur gleichzeitigen Verarbeitung stark einschränkt. Darüber hinaus verbindet jede ELMo-Schicht Vektoren in zwei Richtungen, sodass dieser Vorgang tatsächlich immer noch ein einseitiges Lernen ist und es unmöglich ist, gleichzeitig in zwei Richtungen zu lernen.

Referenzen:
[1] Che Wanxiang, Cui Yiming, Guo Jiang. Natural Language Processing: A Method Based on Pre-Training Model [M]. Electronic Industry Press, 2021. [2] Shao Hao, Liu Yifeng. Pre-Training Language
Model [M] ]. Electronic Industry Press, 2021.
[3] He Han. Introduction to Natural Language Processing [M]. People's Posts and Telecommunications Press, 2019 [ 4]
Sudharsan Ravichandiran. BERT Basic Tutorial: Transformer Large Model Combat [M] . People's Posts and Telecommunications Publishing Society, 2023
[5] Wu Maogui, Wang Hongxing. Einfache Einbettung: Prinzipanalyse und Anwendungspraxis [M]. Machinery Industry Press, 2021.

Ich denke du magst

Origin blog.csdn.net/hy592070616/article/details/131272214
Empfohlen
Rangfolge