Erforschung nachhaltiger Lernfähigkeiten, die die ökologische Entwicklung großer Open-Source-Modellanwendungen der Pengcheng-Serie unterstützen

[Zusammenfassung]Groß angelegte Pre-Training-Modelle haben im Bereich der Verarbeitung natürlicher Sprache große Erfolge erzielt, indem sie umfangreiche Korpusse und verschiedene Pre-Training-Aufgaben genutzt haben. Mit der schrittweisen Entwicklung großer Modelle ist die Erforschung der nachhaltigen Lernfähigkeit großer Modelle zu einem neuen Forschungsschwerpunkt geworden. Stellt hauptsächlich das technische System, die Anwendungspraxis und die Herausforderungen des kontinuierlichen Lernens großer Modelle der Pengcheng-Serie vor, einschließlich des nachhaltigen Lerntechnologiesystems der Pengcheng-Serie durch Aufgabenerweiterung, Dateninkrementierung und Wissensbegründung, Open-Source-Großmodell Pengcheng·Pangu Multitasking Nachhaltiges Lernen und die nachhaltige Lernfähigkeitspraxis des Pengcheng Tongyan-Großmodells, Herausforderungen wie die Aktualisierung des Wortschatzes, semantische Zuordnung und Wissenskonflikte, denen sich der Prozess des nachhaltigen Lernens großer Modelle gegenübersieht.

[Schlüsselwörter]Großes Modell der Pengcheng-Serie; nachhaltiges Lernen; Pengcheng·Pangu; Pengcheng·Tongyan; großes Open-Source-Modell

0 Vorwort

In den letzten Jahren hat die Pengcheng-Reihe groß angelegter vorab trainierter Sprachmodelle (als Pengcheng-System-Großmodell bezeichnet) die Kontextdarstellung von Text aus umfangreichen Korpora durch selbstüberwachte Lerntrainingsmethoden und durch Lernen mit kleinen Stichproben für bestimmte Aufgaben gelernt. in natürlicher Sprache Bei Aufgaben wie dem Verstehen und der Erzeugung natürlicher Sprache wurden beeindruckende Ergebnisse erzielt.

Große Modelle weisen zwei wesentliche Merkmale auf: Erstens ist die Modellstruktur tief genug und die Parameterskala groß. Zweitens wird der Vortrainingsprozess von einer Vielzahl von Vortrainingsaufgaben begleitet, um die effektive Nutzung großer Korpusse sicherzustellen. Als Google das vorab trainierte BERT-Modell mit einer Parameterskala von 100 bis 300 Millionen veröffentlichte, betraten vorab trainierte Modelle in großem Maßstab offiziell den Bereich der Verarbeitung natürlicher Sprache und begannen zu florieren. In den folgenden Jahren wuchs die Parameterskala der von in- und ausländischen Forschungseinrichtungen veröffentlichten Pre-Training-Modelle mit XLM (ca. 200 Millionen), RoBERTa (ca. 350 Millionen), MT5 (ca. 700 Millionen) und GPT-3 weiter (ca. 1.750) erscheinen nacheinander. Milliarden), Huawei Pangu großes Modell (ca. 100 Milliarden), Pengcheng Pangu-α großes Modell (ca. 200 Milliarden), Google Switch Transformers (ca. 1,6 Billionen), Zhiyuan Enlightenment 2.0 (ca. 1,75 Billionen) und Groß angelegte Vorschulungen wie die Alibaba Damo Academy M6 (ca. 1 Billion)

Supongo que te gusta

Origin blog.csdn.net/weixin_70923796/article/details/134916521
Recomendado
Clasificación