Einführung
Das Shanghai Artificial Intelligence Laboratory und SenseTime haben zusammen mit der Chinesischen Universität Hongkong und der Fudan-Universität offiziell die 20-Milliarden-Parameter- Modellversion InternLM-20B von Shusheng·Puyu eingeführt. InternLM-20B basiert auf mehr als 2,3T -Tokens mit hochwertigem Englisch , Chinesisch und Codedaten. Es wird ein Vortraining durchgeführt, bei dem die Chat-Version auch auf SFT und RLHF trainiert wurde, um sie besser und sicherer zu machen, um den Bedürfnissen der Benutzer gerecht zu werden.
InternLM 20B wählt eine tiefe Struktur in der Modellstruktur und die Anzahl der Schichten ist auf 60 Schichten eingestellt, was die 32 oder 40 Schichten übersteigt, die in den herkömmlichen 7B- und 13B-Modellen verwendet werden. Wenn die Parameter begrenzt sind, ist eine Erhöhung der Anzahl der Schichten von Vorteil, um die umfassende Leistungsfähigkeit des Modells zu verbessern. Darüber hinaus wurden die von InternLM-20B verwendeten Pre-Training-Daten im Vergleich zu InternLM- 7 B mit höherer Qualität bereinigt und mit hoher Wissensdichte und Trainingsdaten ergänzt, um das Verständnis und die Argumentationsfähigkeiten zu stärken. Daher wurde es in Aspekten wie Verständnisfähigkeit, Argumentationsfähigkeit, mathematische Fähigkeit und Programmierfähigkeit, die das technische Niveau von Sprachmodellen testen, erheblich verbessert. Insgesamt weist InternLM-20B die folgenden Eigenschaften auf:
- Hervorragende Gesamtleistung
- Starke Werkzeugaufruffunktion
- Unterstützt eine Kontextlänge von 16 KB ( extrapoliert über die Inferenzzeit)
- Bessere Werteausrichtung
Leistungsbeurteilung
In den fünf von OpenCompass vorgeschlagenen Fähigkeitsdimensionen hat InternLM-20B sehr gute Ergebnisse erzielt (die besten Ergebnisse im Bereich 13B-33B sind fett gedruckt).
Fähigkeitsdimension | Flamme-13B | Lama2-13B | Baichuan2-13B | PraktikantLM-20B | Lama-33B | Lama-65B | Lama2-70B |
---|---|---|---|---|---|---|---|
Sprache | 42,5 | 47 | 47,5 | 55 | 44.6 | 47.1 | 51.6 |
Wissen | 58.2 | 58.3 | 48.9 | 60.1 | 64 | 66 | 67,7 |
verstehen | 45,5 | 50.9 | 58.1 | 67,3 | 50.6 | 54.2 | 60,8 |
Argumentation | 42.7 | 43,6 | 44.2 | 54.9 | 46.4 | 49,8 | 55 |
Thema | 37.3 | 45.2 | 51.8 | 62,5 | 47.4 | 49,7 | 57.3 |
Gesamtdurchschnitt | 43,8 | 47.3 | 49.4 | 59.2 | 48.9 | 51.9 | 57.4 |
Die folgende Tabelle zeigt die Leistung von InternLM 20B und verschiedenen Mainstream-Open-Source-Modellen für mehrere klassische Datensätze.
Evaluierungsset | Flamme-13B | Lama2-13B | Baichuan2-13B | PraktikantLM-20B | Lama-33B | Lama-65B | Lama2-70B | |
---|---|---|---|---|---|---|---|---|
Thema | MMLU | 47,73 | 54,99 | 59,55 | 62.05 | 58,73 | 63,71 | 69,75 |
C-Bewertung (Wert) | 31.83 | 41.4 | 59.01 | 58,8 | 37,47 | 40,36 | 50.13 | |
AGI-Eval | 22.03 | 30.93 | 37,37 | 44,58 | 33,53 | 33,92 | 40.02 | |
Wissen | BoolQ | 78,75 | 82,42 | 67 | 87,46 | 84,43 | 86,61 | 87,74 |
TriviaQA | 52,47 | 59,36 | 46,61 | 57,26 | 66,24 | 69,79 | 70,71 | |
Natürliche Fragen | 20.17 | 24.85 | 16.32 | 25.15 | 30,89 | 33.41 | 34.16 | |
verstehen | CMRC | 9.26 | 31.59 | 29,85 | 68,78 | 14.17 | 34,73 | 43,74 |
CSL | 55 | 58,75 | 63.12 | 65,62 | 57,5 | 59,38 | 60 | |
RENNEN (Mitte) | 53,41 | 63.02 | 68,94 | 86,35 | 64,55 | 72,35 | 81,55 | |
RENNEN (hoch) | 47,63 | 58,86 | 67,18 | 83,28 | 62,61 | 68.01 | 79,93 | |
XSum | 20.37 | 23.37 | 25.23 | 35,54 | 20.55 | 19.91 | 25.38 | |
Argumentation | WinoGrande | 64,64 | 64.01 | 67,32 | 69,38 | 66,85 | 69,38 | 69,77 |
BBH | 37,93 | 45,62 | 48,98 | 52,51 | 49,98 | 58,38 | 64,91 | |
GSM8K | 20.32 | 29.57 | 52,62 | 52,62 | 42.3 | 54,44 | 63,31 | |
PIQA | 79,71 | 79,76 | 78.07 | 80,25 | 81,34 | 82,15 | 82,54 | |
Programmierung | HumanEval | 14.02 | 18.9 | 17.07 | 25.61 | 17.68 | 18.9 | 26.22 |
MBPP | 20.6 | 26.8 | 30.8 | 35.6 | 28.4 | 33.6 | 39.6 |
Insgesamt ist InternLM-20B dem Open-Source- Modell hinsichtlich der umfassenden Fähigkeiten voraus und kann die Leistung von Llama-65B im Inferenzbewertungssatz erreichen oder sogar übertreffen .
Laden über ModelScope
Laden Sie das InternLM 20B-Modell über den folgenden Code
import torch
from modelscope import AutoModelForCausalLM, AutoTokenizer, snapshot_download
model_id = 'Shanghai_AI_Laboratory/internlm-chat-20b'
model_dir = snapshot_download(model_id, revision='v1.0.0')
tokenizer = AutoTokenizer.from_pretrained(model_dir, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(model_dir, device_map="auto", torch_dtype=torch.bfloat16, trust_remote_code=True).eval()
query = '你好'
response, history = model.chat(tokenizer, query, max_new_tokens=200)
print(response)
query = '请提供三个时间管理的建议'
response, history = model.chat(tokenizer, query, history, max_new_tokens=200)
print(response)
Einschränkungen: Obwohl wir während des Trainingsprozesses große Aufmerksamkeit auf die Sicherheit des Modells legen und unser Bestes geben, um das Modell so zu fördern, dass Text ausgegeben wird, der ethischen und rechtlichen Anforderungen entspricht, sind wir durch die Größe des Modells und das probabilistische Generierungsparadigma begrenzt Das Modell kann verschiedene Ausgaben erzeugen, die nicht den Erwartungen entsprechen. Beispielsweise enthält der Antwortinhalt schädliche Inhalte wie Vorurteile, Diskriminierung usw. Bitte verbreiten Sie diese Inhalte nicht. Dieses Projekt übernimmt keine Verantwortung für etwaige Folgen, die durch die Verbreitung falscher Informationen entstehen.