Praktische Anwendung großer Modelle 11 – „Gelehrter“ allgemeiner Aufbau großer Modelle und detaillierte Einführung in den Modellcode sowie schnelle Verwendungsmethoden

Hallo zusammen, ich bin Wei Xue AI. Heute werde ich Ihnen die praktische Anwendung großer Modelle vorstellen. 11 – „Gelehrte“ allgemeine Konstruktions- und Modellcodedetails für große Modelle sowie schnelle Verwendungsmethoden. Das allgemeine große Modell „Scholar“ ist ein großes Modell, das vom Shanghai Artificial Intelligence Laboratory entwickelt wurde, und eine leichtgewichtige Version des InternLM-7B mit 7 Milliarden Parametern des großen Modells „Scholar·Puyu“ wurde als Open-Source-Version bereitgestellt. Das InternLM-7B-Modell wird hauptsächlich basierend auf dem Decoder in der Transformatorarchitektur entwickelt und transformiert. Die Architektur wird unter Verwendung der RMSNorm-Normalisierungsmethode, der RotaryEmbedding-Methode (Rotationspositionseinbettung), des Aufmerksamkeitsmechanismus und der Decoderschichttransformation erstellt. Das Modell nutzt Billionen hochwertiger Daten-Tokens für das Training und baut eine leistungsstarke Wissensbasis auf, um Benutzern ein gemeinsames Toolset für den flexiblen Aufbau ihrer eigenen Arbeitsabläufe bereitzustellen.

1. Allgemeines Modell von „Scholar“

Am 6. Juli 2023 veröffentlichten das Shanghai Artificial Intelligence Laboratory (Shanghai AI Laboratory) und SenseTime gemeinsam mit mehreren Universitäten ein neu aktualisiertes „Scholar General Large Model System“. Gleichzeitig hat das Shanghai AI Laboratory InternLM-7B, eine leichte Version des 7-Milliarden-Parameter-Großmodells „Scholar·Puyu“, offiziell als Open-Source-Lösung bereitgestellt und das erste Open-Source-System mit vollständiger Kette für Forschung, Entwicklung und Anwendung großer Modelle eingeführt Durchläuft Daten. Es gibt fünf Hauptverbindungen: Vorschulung, Feinabstimmung, Bereitstellung und Bewertung. InternLM-7B steht der akademischen Forschung uneingeschränkt offen und unterstützt die kostenlose kommerzielle Nutzung.
Fügen Sie hier eine Bildbeschreibung ein

2. InternLM-7B-Modellbewertung

Das InternLM-7B-Modell wurde umfassend mit dem Open-Source-Bewertungstool OpenCompass evaluiert. Die Bewertung umfasst fünf Fähigkeitsdimensionen: Fachkompetenz, Sprachkompetenz, Wissensfähigkeit, Argumentationsfähigkeit und Verständnisfähigkeit. Das Folgende ist eine vergleichende Bewertung mit LLaMA-7B, Baichuan-7B, ChatGLM2-6B, Alpaca-7B und Vicuna-7B. Die Ergebnisse sind wie folgt:

Das

おすすめ

転載: blog.csdn.net/weixin_42878111/article/details/134748831