Mit 180 Milliarden Parametern wird das weltweit führende Open-Source-Großmodell Falcon offiziell angekündigt! Zerstöre LLaMA 2, die Leistung liegt nahe an GPT-4

Quelle | Xinzhiyuan ID | KI-Ära

Über Nacht hat das weltweit leistungsstärkste Open-Source-Großmodell Falcon 180B das gesamte Internet in Aufruhr versetzt!

Mit 180 Milliarden Parametern absolvierte Falcon das Training auf 3,5 Billionen Token und lag direkt an der Spitze der Hugging Face-Rangliste.

Im Benchmark-Test besiegte Falcon 180B Llama 2 in verschiedenen Aufgaben, darunter Argumentation, Codierung, Kompetenz- und Wissenstests.

Bild

Tatsächlich liegt Falcon 180B auf Augenhöhe mit Google PaLM 2 und seine Leistung liegt nahe an GPT-4.

Allerdings äußerte Jim Fan, ein leitender Wissenschaftler bei Nvidia, Zweifel daran.

- Der Code macht nur 5 % der Falcon-180B-Trainingsdaten aus.

Code ist bei weitem die nützlichste Datenquelle für die Verbesserung der Denkfähigkeit, die Beherrschung der Werkzeugnutzung und die Verbesserung von KI-Agenten. Tatsächlich ist GPT-3.5 auf der Grundlage von Codex fein abgestimmt.

- Keine Kodierungsreferenzdaten.

Ohne Codierungsfunktionen können Sie nicht behaupten, „besser als GPT-3.5“ oder „nahe an GPT-4“ zu sein. Es sollte ein integraler Bestandteil des Rezepts vor dem Training sein und keine spätere Anpassung sein.

– Für Sprachmodelle mit Parametern größer als 30B ist es an der Zeit, ein Hybrid-Expertensystem (MoE) einzuführen. Bisher haben wir nur OSS MoE LLM < 10B gesehen.

Bild

Werfen wir einen Blick darauf: Was ist der Ursprung des Falcon 180B?

Bild

Das weltweit leistungsstärkste Open-Source-Modell

Zuvor hat Falcon drei Modellgrößen auf den Markt gebracht, nämlich 1.3B, 7.5B und 40B.

Der offiziellen Einführung zufolge handelt es sich bei Falcon 180B um eine verbesserte Version von 40B. Sie wurde von TII, dem weltweit führenden Technologieforschungszentrum in Abu Dhabi, auf den Markt gebracht und steht zur kostenlosen kommerziellen Nutzung zur Verfügung.

Bild

Diesmal führten die Forscher technische Innovationen im Basismodell durch, beispielsweise die Verwendung von Multi-Query Attention, um die Skalierbarkeit des Modells zu verbessern.

Bild

Für den Trainingsprozess basiert Falcon 180B auf Amazon SageMaker, der Cloud-Plattform für maschinelles Lernen von Amazon, und hat das Training mit 3,5 Billionen Token auf bis zu 4096 GPUs abgeschlossen.

Gesamte GPU-Rechenzeit, ca. 7.000.000.

Die Parametergröße von Falcon 180B ist 2,5-mal so groß wie die von Llama 2 (70B), und der für das Training erforderliche Rechenaufwand ist viermal so groß wie die von Llama 2.

Zu den spezifischen Trainingsdaten von Falcon 180B gehört hauptsächlich der RefinedWe-Datensatz (der etwa 85 % ausmacht).

Darüber hinaus wurde die Schulung anhand einer kuratierten Mischung aus Gesprächen, Fachbeiträgen und einer kleinen Codesammlung durchgeführt.

Dieser vorab trainierte Datensatz ist groß genug, dass selbst 3,5 Billionen Token nur weniger als eine Epoche belegen.

Bild

Der Beamte behauptet, dass Falcon 180B derzeit das „beste“ Open-Source-Großmodell ist. Die spezifische Leistung ist wie folgt:

Beim MMLU-Benchmark übertrifft Falcon 180B Llama 2 70B und GPT-3.5.

Auf HellaSwag, LAMBADA, WebQuestions, Winogrande, PIQA, ARC, BoolQ, CB, COPA, RTE, WiC, WSC und ReCoRD ist es vergleichbar mit Googles PaLM 2-Large.

Bild

Darüber hinaus ist es derzeit das offene Großmodell mit der höchsten Punktzahl (68,74 Punkte) auf der Open-Source-Großmodellliste Hugging Face und übertrifft damit LlaMA 2 (67,35).

Bild

Falcon 180B steht zur Nutzung zur Verfügung

Gleichzeitig veröffentlichten die Forscher auch das Chat-Konversationsmodell Falcon-180B-Chat. Das Modell ist auf Konversations- und Unterrichtsdatensätze abgestimmt, die Open-Platypus, UltraChat und Airoboros abdecken.

Bild

Jetzt kann jeder eine Demo-Erfahrung machen.

Bild

Adresse: https://huggingface.co/tiiuae/falcon-180B-chat

Eingabeaufforderungsformat

Das Basismodell verfügt nicht über ein Eingabeaufforderungsformat, da es sich nicht um ein umfangreiches Konversationsmodell handelt, und es wird auch nicht durch Anweisungen trainiert, sodass es nicht auf Konversationsart reagiert.

Vorab trainierte Modelle sind eine großartige Plattform für die Feinabstimmung, Sie sollten sie jedoch wahrscheinlich nicht direkt verwenden. Das Dialogmodell verfügt über einen einfachen Dialogmodus.

System: Add an optional system prompt hereUser: This is the user inputFalcon: This is what the model generatesUser: This might be a second turn inputFalcon: and so on

Transformer

Ab Transfomers 4.33 kann Falcon 180B im Hugging Face-Ökosystem verwendet und heruntergeladen werden.

Stellen Sie sicher, dass Sie bei Ihrem Hugging Face-Konto angemeldet sind und die neueste Version von Transformers installiert haben:

 
 
pip install --upgrade transformershuggingface-cli login

bfloat16

Hier erfahren Sie, wie Sie das Basismodell mit bfloat16 verwenden. Da es sich beim Falcon 180B um ein großes Modell handelt, beachten Sie bitte die Hardwareanforderungen.

Die Hardwarevoraussetzungen hierfür sind wie folgt:

Es ist ersichtlich, dass Sie für eine vollständige Feinabstimmung des Falcon 180B mindestens 8X8X A100 80G benötigen. Wenn dies nur als Schlussfolgerung dient, benötigen Sie auch eine 8XA100 80G-GPU.

Bild

 
 
from transformers import AutoTokenizer, AutoModelForCausalLMimport transformersimport torch
model_id = "tiiuae/falcon-180B"
tokenizer = AutoTokenizer.from_pretrained(model_id)model = AutoModelForCausalLM.from_pretrained(    model_id,    torch_dtype=torch.bfloat16,    device_map="auto",)
prompt = "My name is Pedro, I live in"inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
output = model.generate(    input_ids=inputs["input_ids"],    attention_mask=inputs["attention_mask"],    do_sample=True,    temperature=0.6,    top_p=0.9,    max_new_tokens=50,)output = output[0].to("cpu")print(tokenizer.decode(output)

Die folgende Ausgabe kann erzeugt werden:

My name is Pedro, I live in Portugal and I am 25 years old. I am a graphic designer, but I am also passionate about photography and video.I love to travel and I am always looking for new adventures. I love to meet new people and explore new places.

Verwendung von 8-Bit- und 4-Bit-Bitsandbytes

Darüber hinaus sind die 8-Bit- und 4-Bit-quantisierten Versionen von Falcon 180B hinsichtlich der Auswertung praktisch nicht von bfloat16 zu unterscheiden!

Dies sind gute Nachrichten für die Inferenz, da Benutzer die quantisierte Version getrost verwenden können, um die Hardwareanforderungen zu reduzieren.

Beachten Sie, dass die Inferenz in der 8-Bit-Version viel schneller ist als in der 4-Bit-Version. Um die Quantisierung nutzen zu können, müssen Sie beim Laden des Modells die Bibliothek „bitsandbytes“ installieren und die entsprechenden Flags aktivieren:

model = AutoModelForCausalLM.from_pretrained(    model_id,    torch_dtype=torch.bfloat16,    **load_in_8bit=True,**    device_map="auto",)

Dialogmodell

Wie oben erwähnt, verwendet die für die Nachverfolgung von Gesprächen optimierte Version des Modells eine sehr einfache Trainingsvorlage. Wir müssen dem gleichen Muster folgen, um Argumentationen im Chat-Stil durchzuführen.

Als Referenz können Sie sich die Funktion [format_prompt] in der Chat-Demo ansehen:

def format_prompt(message, history, system_prompt):    prompt = ""    if system_prompt:        prompt += f"System: {system_prompt}\n"    for user_prompt, bot_response in history:        prompt += f"User: {user_prompt}\n"        prompt += f"Falcon: {bot_response}\n"        prompt += f"User: {message}\nFalcon:"    return prompt

Wie oben zu sehen ist, werden Benutzerinteraktionen und Modellantworten durch die Trennzeichen „User:“ und „Falcon:“ vorangestellt. Wir verbinden sie zu einer Eingabeaufforderung, die den gesamten Gesprächsverlauf enthält. Auf diese Weise kann eine Systemaufforderung zur Anpassung des Build-Stils bereitgestellt werden.

Heiße Kommentare von Internetnutzern

Viele Internetnutzer haben hitzige Diskussionen über die wahre Stärke des Falcon 180B geführt.

Absolut unglaublich. Es schlägt GPT-3.5 und liegt auf Augenhöhe mit Googles PaLM-2 Large. Das ist ein Game Changer!

Bild

Ein CEO eines Startups sagte: „Ich habe den Konversationsroboter Falcon-180B getestet und er war nicht besser als das Chatsystem Llama2-70B.“ Auch die HF OpenLLM-Rangliste zeigt gemischte Ergebnisse. Dies ist angesichts der größeren Größe und des größeren Trainingssatzes überraschend.

Bild

Schenken Sie eine Kastanie:

Geben Sie einige Punkte vor und lassen Sie Falcon-180B und Llama2-70B diese jeweils beantworten und sehen Sie, was der Effekt ist?

Falcon-180B zählte fälschlicherweise einen Sattel als Tier. Llama2-70B antwortete prägnant und gab die richtige Antwort.

Bild

Bild

Verweise:

https://twitter.com/TIIuae/status/1699380904404103245

https://twitter.com/DrJimFan/status/1699459647592403236

https://huggingface.co/blog/zh/falcon-180b

https://huggingface.co/tiiuae/falcon-180B

Acho que você gosta

Origin blog.csdn.net/lqfarmer/article/details/132765938
Recomendado
Clasificación