Scholar·Puyu-Dialogue-20B Scholar Großes Modell

Einführung

Das Shanghai Artificial Intelligence Laboratory und SenseTime haben zusammen mit der Chinesischen Universität Hongkong und der Fudan-Universität offiziell die 20-Milliarden-Parameter- Modellversion InternLM-20B von Shusheng·Puyu eingeführt. InternLM-20B basiert auf mehr als 2,3T -Tokens mit hochwertigem Englisch , Chinesisch und Codedaten. Es wird ein Vortraining durchgeführt, bei dem die Chat-Version auch auf SFT und RLHF trainiert wurde, um sie besser und sicherer zu machen, um den Bedürfnissen der Benutzer gerecht zu werden.

InternLM 20B wählt eine tiefe Struktur in der Modellstruktur und die Anzahl der Schichten ist auf 60 Schichten eingestellt, was die 32 oder 40 Schichten übersteigt, die in den herkömmlichen 7B- und 13B-Modellen verwendet werden. Wenn die Parameter begrenzt sind, ist eine Erhöhung der Anzahl der Schichten von Vorteil, um die umfassende Leistungsfähigkeit des Modells zu verbessern. Darüber hinaus wurden die von InternLM-20B verwendeten Pre-Training-Daten im Vergleich zu InternLM- 7 B mit höherer Qualität bereinigt und mit hoher Wissensdichte und Trainingsdaten ergänzt, um das Verständnis und die Argumentationsfähigkeiten zu stärken. Daher wurde es in Aspekten wie Verständnisfähigkeit, Argumentationsfähigkeit, mathematische Fähigkeit und Programmierfähigkeit, die das technische Niveau von Sprachmodellen testen, erheblich verbessert. Insgesamt weist InternLM-20B die folgenden Eigenschaften auf:

Hervorragende Gesamtleistung
Starke Werkzeugaufruffunktion
Unterstützt eine Kontextlänge von 16 KB ( extrapoliert über die Inferenzzeit)
Bessere Werteausrichtung

Leistungsbeurteilung

In den fünf von OpenCompass vorgeschlagenen Fähigkeitsdimensionen hat InternLM-20B sehr gute Ergebnisse erzielt (die besten Ergebnisse im Bereich 13B-33B sind fett gedruckt).

Fähigkeitsdimension	Flamme-13B	Lama2-13B	Baichuan2-13B	PraktikantLM-20B	Lama-33B	Lama-65B	Lama2-70B
Sprache	42,5	47	47,5	55	44.6	47.1	51.6
Wissen	58.2	58.3	48.9	60.1	64	66	67,7
verstehen	45,5	50.9	58.1	67,3	50.6	54.2	60,8
Argumentation	42.7	43,6	44.2	54.9	46.4	49,8	55
Thema	37.3	45.2	51.8	62,5	47.4	49,7	57.3
Gesamtdurchschnitt	43,8	47.3	49.4	59.2	48.9	51.9	57.4

Die folgende Tabelle zeigt die Leistung von InternLM 20B und verschiedenen Mainstream-Open-Source-Modellen für mehrere klassische Datensätze.

	Evaluierungsset	Flamme-13B	Lama2-13B	Baichuan2-13B	PraktikantLM-20B	Lama-33B	Lama-65B	Lama2-70B
Thema	MMLU	47,73	54,99	59,55	62.05	58,73	63,71	69,75
	C-Bewertung (Wert)	31.83	41.4	59.01	58,8	37,47	40,36	50.13
	AGI-Eval	22.03	30.93	37,37	44,58	33,53	33,92	40.02
Wissen	BoolQ	78,75	82,42	67	87,46	84,43	86,61	87,74
	TriviaQA	52,47	59,36	46,61	57,26	66,24	69,79	70,71
	Natürliche Fragen	20.17	24.85	16.32	25.15	30,89	33.41	34.16
verstehen	CMRC	9.26	31.59	29,85	68,78	14.17	34,73	43,74
	CSL	55	58,75	63.12	65,62	57,5	59,38	60
	RENNEN (Mitte)	53,41	63.02	68,94	86,35	64,55	72,35	81,55
	RENNEN (hoch)	47,63	58,86	67,18	83,28	62,61	68.01	79,93
	XSum	20.37	23.37	25.23	35,54	20.55	19.91	25.38
Argumentation	WinoGrande	64,64	64.01	67,32	69,38	66,85	69,38	69,77
	BBH	37,93	45,62	48,98	52,51	49,98	58,38	64,91
	GSM8K	20.32	29.57	52,62	52,62	42.3	54,44	63,31
	PIQA	79,71	79,76	78.07	80,25	81,34	82,15	82,54
Programmierung	HumanEval	14.02	18.9	17.07	25.61	17.68	18.9	26.22
	MBPP	20.6	26.8	30.8	35.6	28.4	33.6	39.6

Insgesamt ist InternLM-20B dem Open-Source- Modell hinsichtlich der umfassenden Fähigkeiten voraus und kann die Leistung von Llama-65B im Inferenzbewertungssatz erreichen oder sogar übertreffen .

Laden über ModelScope

Laden Sie das InternLM 20B-Modell über den folgenden Code

import torch
from modelscope import AutoModelForCausalLM, AutoTokenizer, snapshot_download

model_id = 'Shanghai_AI_Laboratory/internlm-chat-20b'
model_dir = snapshot_download(model_id, revision='v1.0.0')
tokenizer = AutoTokenizer.from_pretrained(model_dir, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(model_dir, device_map="auto", torch_dtype=torch.bfloat16, trust_remote_code=True).eval()

query = '你好'
response, history = model.chat(tokenizer, query, max_new_tokens=200)
print(response)
query = '请提供三个时间管理的建议'
response, history = model.chat(tokenizer, query, history, max_new_tokens=200)
print(response)

Einschränkungen: Obwohl wir während des Trainingsprozesses große Aufmerksamkeit auf die Sicherheit des Modells legen und unser Bestes geben, um das Modell so zu fördern, dass Text ausgegeben wird, der ethischen und rechtlichen Anforderungen entspricht, sind wir durch die Größe des Modells und das probabilistische Generierungsparadigma begrenzt Das Modell kann verschiedene Ausgaben erzeugen, die nicht den Erwartungen entsprechen. Beispielsweise enthält der Antwortinhalt schädliche Inhalte wie Vorurteile, Diskriminierung usw. Bitte verbreiten Sie diese Inhalte nicht. Dieses Projekt übernimmt keine Verantwortung für etwaige Folgen, die durch die Verbreitung falscher Informationen entstehen.