Gängige Feinabstimmungsstrategien für die Textgenerierung mithilfe vorab trainierter Sprachmodelle

Übersetzt aus Pretrained Language Models for Text Generation: A Survey Abschnitt 6

Datenperspektive

Few-Shot-Learning: Bei vielen Aufgaben ist es schwierig und teuer, ausreichend gekennzeichnete Daten zu erhalten. Vorab trainierte Modelle können eine große Menge an sprachlichem und realem Wissen kodieren, was eine wirksame Lösung für Datenknappheit darstellt. Der häufig verwendete Ansatz besteht darin, mithilfe vorab trainierter Parameter eine Verbindung zu vorhandenen Modulen herzustellen. Führen Sie dann eine Feinabstimmung mit mehreren Fällen oder sogar einem Fall ohne Rechercheaufgaben durch. Beispielsweise wird das Lernen kleiner Stichproben auf Daten-zu-Text-Aufgaben angewendet, wie z. B. die Tabellen-zu-Text-Generierung [1, 2] und die KG-zu-Text-Generierung [3]. Chen [1] stellt GPT-2 direkt eine kleine Anzahl serialisierter Attributwertpaare zur Verfügung, und Gong [2] wendet darüber hinaus mehrere Aufgaben an, um die Strukturinformationen der Tabelle besser zu nutzen. Darüber hinaus schlug Li [3] eine Darstellungsausrichtung vor, um die semantische Lücke zwischen KG-Kodierung und vorab trainierten Modellen zu schließen und die Korrespondenz zwischen KG und Text zu verbessern.

Domänentransfer: Das vorab trainierte Modell verfügt über eine große Anzahl von Parametern und wird auf einem großen Korpus vorab trainiert. Sie können sich jedoch immer noch nicht direkt an neue Domänen mit großen Verteilungsunterschieden zu den vorab trainierten Domänen anpassen. Eine effektive Lösung besteht darin, ein vorab trainiertes Modell mithilfe von Daten aus der Zieldomäne zu trainieren, bevor es für die Zielaufgabe optimiert wird. Die Maskenvorhersage ist eine weit verbreitete Methode, die versucht, maskierte Token anhand der verbleibenden Token vorherzusagen. Es gibt verschiedene Möglichkeiten der Maskierung bei der Domänenmigration. Zeng und Nie [13] schlugen eine auf TF-IDF basierende Maske vor, um mehr bedingungsbezogene Token zu maskieren und sich auf Domänenmerkmale zu konzentrieren. Dokumentmaskierung wird häufig bei Zusammenfassungsaufgaben verwendet, um Merkmale langer Dokumente auf Dokumentebene zu erfassen [4].

Missionsperspektive

Neben den Eigenschaften neuer Domänen ist es auch interessant, bei der Feinabstimmung vorab trainierter Modelle spezielle Aspekte wie Sprachkohärenz und Texttreue bei bestimmten Generierungsaufgaben zu berücksichtigen.

Kohärenz verbessern: Um die Sprachkohärenz zu verbessern, besteht ein wichtiger Ansatz darin, den Sprachkontext während der Feinabstimmung besser zu modellieren. Durch kontrastives Lernen können fein abgestimmte Modelle gut unterscheiden, ob Satzpaare ähnlich sind. Bei diesem Ansatz wird das vorab trainierte Modell gezwungen, die Positions- oder semantische Beziehung zwischen zwei Sätzen zu verstehen, was zu einer besseren Darstellung führt. Die Vorhersage des nächsten Satzes (NSP) ist eine gängige Methode zur Bestimmung, ob zwei Eingabesätze kontinuierliche Segmente sind, und kann auf Zusammenfassungs- [5] und Dialogsysteme [6] angewendet werden. Zeng und Lapata [14] schlugen vor, die Satzreihenfolge entsprechend ihrer semantischen Ähnlichkeit neu zu ordnen. CBT [7] schlug die Rauschkontrastschätzung (NCE) im modalübergreifenden Training vor, um das Modell zu ermutigen, im Vergleich zu einer Reihe negativer Ablenker korrekte Video-Text-Paare zu identifizieren. Denoising Autoencoding (DAE) verwendet beschädigten Text als Eingabe und zielt darauf ab, den Originaltext wiederherzustellen. Mit DAE verfeinerte Modelle verfügen über eine starke Fähigkeit, den gesamten Satz zu verstehen und weiter entfernte Zusammenhänge zu erfassen. Beispielsweise nutzt TED[8] DAE, um grundlegende semantische Informationen für abstrakte Zusammenfassungen zu optimieren. XGPT [9] versucht, die zugrunde liegende Text-Bild-Ausrichtung mithilfe der bildbedingten Rauschunterdrückung (IDA) zu modellieren, um das Modell zur Rekonstruktion des gesamten Satzes zu zwingen.

Treue wahren: Die Texttreue bezieht sich darauf, wie konsistent der generierte Text mit den ursprünglichen Eingabeinformationen ist, und ist ein wichtiger Aspekt, der bei vielen Textgenerierungsaufgaben berücksichtigt werden muss. Die generische Struktur vorab trainierter Modelle kann die Texttreue bei bestimmten Textgenerierungsaufgaben nicht aufrechterhalten. Beispielsweise müssen für Tabellen-zu-Text-Generierungsaufgaben die Strukturinformationen der Tabelle codiert werden. Gong [2] schlug vor, Multitasking-Lernen zu nutzen, um Tabelleneinbettungen zu rekonstruieren und den Abgleich zwischen Tabelleneinbettungen und Inhaltseinbettungen zu erzwingen. Darüber hinaus kann der Zeigergenerator [10] auf KG zur Textgenerierung angewendet werden, um die Entitäts- und Beziehungsinformationen in KG zu kopieren.

Modellwinkel

Um die Qualität des generierten Textes zu verbessern, ist es wichtig, die Parameter eines vorab trainierten Modells auf der Grundlage aufgabenspezifischer Daten effektiv zu trainieren, damit das vorab trainierte Modell aufgabenspezifische semantische Merkmale erfassen kann. Allerdings sind, wie oben erwähnt, nicht genügend Daten für die spezifische Aufgabe vorhanden, sodass bei der Feinabstimmung auf begrenzten Daten wahrscheinlich eine Überanpassung auftritt. Für die Feinabstimmungsmethode für das Modell verwendet Gu [15] eine feste Lehrer-GPT, um das in einer anderen Feinabstimmungs-GPT codierte Wissen zu speichern. Chen et al. [16] verwendeten das BERT-Modell (Lehrer) als Aufsicht, um das Seq2Seq-Modell (Schüler) anzuleiten, um eine bessere Generationsleistung zu erzielen. Darüber hinaus verwendeten Liu und Lapata [17] zwei Optimierer, um die Parameter des vorab trainierten Modells bzw. des Ausgangsmoduls zu aktualisieren und die Unterschiede zwischen den beiden Modulen aufzulösen.

Es gibt andere Möglichkeiten, den Feinabstimmungsprozess zu steuern. Beispielsweise kann Reinforcement Learning angewendet werden, um das Modell direkt durch nicht differenzierbare Metriken [11] wie ROUGE zu führen. Zhao [18] nutzte das Lehrplanlernen, um das Modell von einfachen Dokumenten bis hin zu schwierigen Dokumenten lernen zu lassen. Darüber hinaus implementiert DIALOGPT [12] eine MMI-Bewertungsfunktion (Maximum Mutual Information), um die Generierung langweiliger, nicht informativer Dialogsystemantworten zu verhindern.

Zitat

  1. Zhiyu Chen, Harini Eavani, Wenhu Chen, Yinyin Liu und William Yang Wang. NLG mit wenigen Schüssen und vorab trainiertem Sprachmodell. In ACL, 2020.
  2. Heng Gong, Yawei Sun, Xiaocheng Feng, Bing Qin, Wei Bi, Xiaojiang Liu und Ting Liu. Tablegpt: Few-Shot-Table-to-Text-Generierung mit Rekonstruktion der Tabellenstruktur und Inhaltsabgleich. In COLING, 2020.
  3. Junyi Li, Tianyi Tang, Wayne Xin Zhao, Zhicheng Wei, Nicholas Jing Yuan und Ji-Rong Wen. Generierung von Wissensgraphen zu Text in wenigen Schritten mit vorab trainierten Sprachmodellen. In Findings of ACL, 2021.
  4. Xingxing Zhang, Furu Wei und Ming Zhou. HIBERT: Vorschulung hierarchischer bidirektionaler Transformatoren auf Dokumentebene für die Zusammenfassung von Dokumenten. In ACL, 2019.
  5. Ziyi Yang, Chenguang Zhu, Robert Gmyr, Michael Zeng, Xuedong Huang und Eric Darve. TED: Ein vorab trainiertes, unbeaufsichtigtes Zusammenfassungsmodell mit Themenmodellierung und Rauschunterdrückung. In EMNLP, 2020.
  6. Thomas Wolf, Victor Sanh, Julien Chaumond und Clement Delangue. Transfertransfo: Ein Transfer-Lernansatz für auf neuronalen Netzwerken basierende Konversationsagenten. arXiv-Vorabdruck arXiv:1901.08149, 2019.
  7. Chen Sun, Fabien Baradel, Kevin Murphy und Cordelia Schmid. Kontrastiver bidirektionaler Transformator zum Lernen der zeitlichen Darstellung. arXiv-Vorabdruck arXiv:1906.05743, 2019.
  8. Ziyi Yang, Chenguang Zhu, Robert Gmyr, Michael Zeng, Xuedong Huang und Eric Darve. TED: Ein vorab trainiertes, unbeaufsichtigtes Zusammenfassungsmodell mit Themenmodellierung und Rauschunterdrückung. In EMNLP, 2020.
  9. Qiaolin Xia, Haoyang Huang, Nan Duan, Dongdong Zhang, Lei Ji, Zhifang Sui, Edward Cui, Taroon Bharti, Xin Liu und Ming Zhou. 2020.
  10. Abigail See, Peter J. Liu und Christopher D. Manning. Auf den Punkt kommen: Zusammenfassung mit Pointer-Generator-Netzwerken. In ACL, 2017.
  11. Haoyu Zhang, Jingjing Cai, Jianjun Xu und Ji Wang. Vortrainingsbasierte Generierung natürlicher Sprache für die Textzusammenfassung. In CoNLL, 2019.
  12. Yizhe Zhang, Siqi Sun, Michel Galley, Yen-Chun Chen, Chris Brockett, Xiang Gao, Jianfeng Gao, Jingjing Liu und Bill Dolan. DIALOGPT: Groß angelegtes generatives Vortraining für die Generierung von Gesprächsantworten. In ACL, 2020.
  13. Yan Zeng und Jian-Yun Nie. Generierung allgemeiner konditionierter Dialoge basierend auf einem vorab trainierten Sprachmodell. arXiv-Vorabdruck arXiv:2010.11140, 2020.
  14. Hao Zheng und Mirella Lapata. Die Satzzentralität wurde für die unbeaufsichtigte Zusammenfassung überarbeitet. In ACL, 2019.
  15. Jing Gu, Qingyang Wu, Chongruo Wu, Weiyan Shi und Zhou Yu. Ein maßgeschneidertes Pre-Training-
    Modell für die aufgabenorientierte Dialoggenerierung. arXiv-Vorabdruck arXiv:2004.13835, 2020.
  16. Yen-Chun Chen, Zhe Gan, Yu Cheng, Jingzhou Liu und Jingjing Liu. Destillation des in BERT erlernten Wissens für die Textgenerierung. In ACL, 2020.
  17. Yang Liu und Mirella Lapata. Textzusammenfassung mit vortrainierten Encodern. In EMNLP, 2019.
  18. Xueliang Zhao, Wei Wu, Can Xu, Chongyang Tao, Dongyan Zhao und Rui Yan. Wissensbasierte Dialoggenerierung mit vortrainierten Sprachmodellen. In EMNLP, 2020.

Erweiterte Lektüre: Verzeichnis von Artikeln zu verschiedenen Aspekten vorab trainierter Sprachmodelle. Ein Überblick über die Forschung zur Textgenerierung basierend auf vorab trainierten Sprachmodellen_zenRRans Blog-CSDN-Blog

Supongo que te gusta

Origin blog.csdn.net/FYZDMMCpp/article/details/121782684
Recomendado
Clasificación