Scholar·Puyu-Dialogue-20B Scholar Großes Modell

Einführung

Das Shanghai Artificial Intelligence Laboratory und SenseTime haben zusammen mit der Chinesischen Universität Hongkong und der Fudan-Universität offiziell die 20-Milliarden-Parameter- Modellversion InternLM-20B von Shusheng·Puyu eingeführt. InternLM-20B basiert auf mehr als  2,3T  -Tokens mit hochwertigem Englisch , Chinesisch und Codedaten. Es wird ein Vortraining durchgeführt, bei dem die Chat-Version auch auf SFT und RLHF trainiert wurde, um sie besser und sicherer zu machen, um den Bedürfnissen der Benutzer gerecht zu werden.

InternLM 20B wählt eine tiefe Struktur in der Modellstruktur und die Anzahl der Schichten ist auf 60 Schichten eingestellt, was die 32 oder 40 Schichten übersteigt, die in den herkömmlichen 7B- und 13B-Modellen verwendet werden. Wenn die Parameter begrenzt sind, ist eine Erhöhung der Anzahl der Schichten von Vorteil, um die umfassende Leistungsfähigkeit des Modells zu verbessern. Darüber hinaus wurden die von InternLM-20B verwendeten Pre-Training-Daten im Vergleich zu InternLM- 7 B mit höherer Qualität bereinigt und mit hoher Wissensdichte und Trainingsdaten ergänzt, um das Verständnis und die Argumentationsfähigkeiten zu stärken. Daher wurde es in Aspekten wie Verständnisfähigkeit, Argumentationsfähigkeit, mathematische Fähigkeit und Programmierfähigkeit, die das technische Niveau von Sprachmodellen testen, erheblich verbessert. Insgesamt weist InternLM-20B die folgenden Eigenschaften auf:

  • Hervorragende Gesamtleistung
  • Starke Werkzeugaufruffunktion
  • Unterstützt eine Kontextlänge von 16 KB ( extrapoliert über die Inferenzzeit)
  • Bessere Werteausrichtung

Leistungsbeurteilung

In den fünf von OpenCompass vorgeschlagenen Fähigkeitsdimensionen hat InternLM-20B sehr gute Ergebnisse erzielt (die besten Ergebnisse im Bereich 13B-33B sind fett gedruckt).

Fähigkeitsdimension Flamme-13B Lama2-13B Baichuan2-13B PraktikantLM-20B Lama-33B Lama-65B Lama2-70B
Sprache 42,5 47 47,5 55 44.6 47.1 51.6
Wissen 58.2 58.3 48.9 60.1 64 66 67,7
verstehen 45,5 50.9 58.1 67,3 50.6 54.2 60,8
Argumentation 42.7 43,6 44.2 54.9 46.4 49,8 55
Thema 37.3 45.2 51.8 62,5 47.4 49,7 57.3
Gesamtdurchschnitt 43,8 47.3 49.4 59.2 48.9 51.9 57.4

Die folgende Tabelle zeigt die Leistung von InternLM 20B und verschiedenen Mainstream-Open-Source-Modellen für mehrere klassische Datensätze.

Evaluierungsset Flamme-13B Lama2-13B Baichuan2-13B PraktikantLM-20B Lama-33B Lama-65B Lama2-70B
Thema MMLU 47,73 54,99 59,55 62.05 58,73 63,71 69,75
C-Bewertung (Wert) 31.83 41.4 59.01 58,8 37,47 40,36 50.13
AGI-Eval 22.03 30.93 37,37 44,58 33,53 33,92 40.02
Wissen BoolQ 78,75 82,42 67 87,46 84,43 86,61 87,74
TriviaQA 52,47 59,36 46,61 57,26 66,24 69,79 70,71
Natürliche Fragen 20.17 24.85 16.32 25.15 30,89 33.41 34.16
verstehen CMRC 9.26 31.59 29,85 68,78 14.17 34,73 43,74
CSL 55 58,75 63.12 65,62 57,5 59,38 60
RENNEN (Mitte) 53,41 63.02 68,94 86,35 64,55 72,35 81,55
RENNEN (hoch) 47,63 58,86 67,18 83,28 62,61 68.01 79,93
XSum 20.37 23.37 25.23 35,54 20.55 19.91 25.38
Argumentation WinoGrande 64,64 64.01 67,32 69,38 66,85 69,38 69,77
BBH 37,93 45,62 48,98 52,51 49,98 58,38 64,91
GSM8K 20.32 29.57 52,62 52,62 42.3 54,44 63,31
PIQA 79,71 79,76 78.07 80,25 81,34 82,15 82,54
Programmierung HumanEval 14.02 18.9 17.07 25.61 17.68 18.9 26.22
MBPP 20.6 26.8 30.8 35.6 28.4 33.6 39.6

Insgesamt ist InternLM-20B dem Open-Source- Modell hinsichtlich der umfassenden Fähigkeiten voraus und kann die Leistung von Llama-65B im Inferenzbewertungssatz erreichen oder sogar übertreffen .

Laden über ModelScope

Laden Sie das InternLM 20B-Modell über den folgenden Code

import torch
from modelscope import AutoModelForCausalLM, AutoTokenizer, snapshot_download

model_id = 'Shanghai_AI_Laboratory/internlm-chat-20b'
model_dir = snapshot_download(model_id, revision='v1.0.0')
tokenizer = AutoTokenizer.from_pretrained(model_dir, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(model_dir, device_map="auto", torch_dtype=torch.bfloat16, trust_remote_code=True).eval()

query = '你好'
response, history = model.chat(tokenizer, query, max_new_tokens=200)
print(response)
query = '请提供三个时间管理的建议'
response, history = model.chat(tokenizer, query, history, max_new_tokens=200)
print(response)

Einschränkungen:  Obwohl wir während des Trainingsprozesses große Aufmerksamkeit auf die Sicherheit des Modells legen und unser Bestes geben, um das Modell so zu fördern, dass Text ausgegeben wird, der ethischen und rechtlichen Anforderungen entspricht, sind wir durch die Größe des Modells und das probabilistische Generierungsparadigma begrenzt Das Modell kann verschiedene Ausgaben erzeugen, die nicht den Erwartungen entsprechen. Beispielsweise enthält der Antwortinhalt schädliche Inhalte wie Vorurteile, Diskriminierung usw. Bitte verbreiten Sie diese Inhalte nicht. Dieses Projekt übernimmt keine Verantwortung für etwaige Folgen, die durch die Verbreitung falscher Informationen entstehen.

Guess you like

Origin blog.csdn.net/sinat_37574187/article/details/133275304