OpenAI veröffentlicht offiziell GPT-4

OpenAI hat gerade den offiziellen Start von GPT-4 angekündigt. GPT-4 ist die Abkürzung für Generative Pre-Trained Transformer 4, also das Generative Pre-Trained Transformation Model 4.

In der Ankündigung heißt es, GPT-4 sei ein multimodales, groß angelegtes Sprachmodell (das die Bild- und Texteingabe und -ausgabe in Textform unterstützt) und der neueste Meilenstein in den Bemühungen von OpenAI, Deep Learning zu erweitern. Obwohl GPT-4 im Umgang mit vielen realen Szenarien schlechter als Menschen ist, hat es in verschiedenen Benchmarks, die berufliche und akademische Fähigkeiten widerspiegeln, vergleichbare Werte wie Menschen gezeigt.

Zum Beispiel bestand GPT-4 die Pseudo-Bar-Prüfung mit Ergebnissen in den oberen 10 % der Testteilnehmer, im Gegensatz dazu erzielte GPT-3.5 eine Punktzahl in den unteren 10 %. Laut OpenAI hat es 6 Monate gedauert, GPT-4 iterativ abzustimmen, indem kontradiktorische Testverfahren und Lehren aus ChatGPT verwendet wurden, was zu den besten Ergebnissen führte, die jemals in Bezug auf Realismus und Kontrollierbarkeit erzielt wurden (wenn auch weit davon entfernt, perfekt zu sein).

Anwendungsbeispiel

OpenAI demonstrierte die einzigartige „multimodale“ Funktion von GPT-4 mit einem Meme.

Benutzerfrage: Erklären Sie, was der Witz im Bild unten ist, und beschreiben Sie jeden Teil des Bildes.

GPT-4:

Das Bild zeigt eine Verpackung für einen "Lightning Cable"-Adapter mit drei Panels.

Panel 1: Ein Smartphone mit einem VGA-Anschluss (ein großer, blauer, 15-poliger Anschluss, der normalerweise für Computermonitore verwendet wird), der an seinen Ladeanschluss angeschlossen ist.

Panel 2: Die Verpackung für den "Lightning Cable"-Adapter mit einem Bild eines VGA-Anschlusses darauf.

Panel 3: Eine Nahaufnahme des VGA-Anschlusses mit einem kleinen Lightning-Anschluss (zum Aufladen von iPhones und anderen Apple-Geräten) am Ende.

Der Humor in diesem Bild kommt von der Absurdität, einen großen, veralteten VGA-Stecker in einen kleinen, modernen Smartphone-Ladeanschluss zu stecken.

Die Übersetzung lautet wie folgt:

Das Bild zeigt die Verpackung eines "Lightning Cable"-Adapters, der aus insgesamt drei Teilen besteht.

Panel 1: Ein Smartphone mit einem VGA-Anschluss, der an seinen Ladeanschluss angeschlossen ist (der große blaue 15-polige Anschluss, der normalerweise für Computermonitore verwendet wird).

Panel 2: Auf der Verpackung des „Lightning Cable“-Adapters befindet sich ein Bild des VGA-Anschlusses.

Panel 3: Eine Nahaufnahme des VGA-Anschlusses, abgeschlossen durch einen kleinen Lightning-Anschluss (zum Aufladen von iPhones und anderen Apple-Geräten).

Hier kommt der Witz ins Spiel: Die Demonstration der Absurdität, einen großen, veralteten VGA-Stecker in einen kleinen, modernen Smartphone-Ladeanschluss zu stecken.

Das obige Beispiel sieht einfach aus, OpenAI zeigt dann eine fortgeschrittene Verwendung - lesen Sie das Papier. Einfach ausgedrückt, GPT-4 die Bildformatdatei des Papiers zur Verfügung stellen, es lesen lassen und die wichtigsten Punkte zusammenfassen. Die Wirkung ist wie folgt:

Lassen Sie GPT-4 sogar direkt die Frage beantworten, die der Fragenummer im Bild entspricht:

GPT-4-Einschränkungen

Obwohl GPT-4 leistungsstark ist, hat es ähnliche Einschränkungen wie frühere GPT-Modelle, da es unrealistische Ergebnisse liefert. Es ist also immer noch nicht ganz zuverlässig (es kann Fakten "halluzinieren" und Schlussfolgerungsfehler aufweisen).

Obwohl dies immer noch ein Problem darstellt, reduziert GPT-4 die „Halluzination“ im Vergleich zu früheren Modellen (die sich selbst mit jeder Iteration verbesserten) erheblich. Bei internen gegnerischen Authentizitätsbewertungen schneidet GPT-4 um 40 % besser ab als das neueste GPT-3.5:

Vergleich mit GPT 3.5

Berichten zufolge kann der Unterschied zwischen GPT-3.5 und GPT-4 für alltägliche Gespräche subtil sein. Aber wenn die Aufgabenkomplexität einen ausreichenden Schwellenwert erreicht, treten Unterschiede auf – GPT-4 ist zuverlässiger, kreativer und in der Lage, feinkörnigere Anweisungen zu verarbeiten als GPT-3.5.

Um den Unterschied zwischen den beiden Modellen zu verstehen, wurde OpenAI durch verschiedene Benchmarks getestet, einschließlich Scheinprüfungen, die ursprünglich für Menschen entwickelt wurden. Wie aus der folgenden Abbildung ersichtlich ist, sind die meisten Ergebnisse von GPT-4 besser als die von GPT-3.

GPT-4 hat auch bei einer Reihe von Testpunkten fast die volle Punktzahl erreicht:

USABO Halbfinalprüfung 2020 (United States Biology Olympiad)
GRE Apropos

OpenAI verwendet auch traditionelle Benchmarks für maschinelle Lernmodelle, um GPT-4 zu evaluieren. Die Ergebnisse zeigen, dass GPT-4 die bestehenden großen Sprachmodelle sowie die meisten State-of-the-Art-Modelle (SOTA, state-of-the-art) weit übertroffen hat. Die Benchmark-Daten lauten wie folgt:

Im MMLU-Benchmark (ein Benchmark-Datensatz mit Multiple-Choice-Fragen aus 57 Disziplinen, darunter STEM, Geisteswissenschaften, Sozialwissenschaften usw., der verwendet wird, um das Weltwissen und die Fähigkeit zur Problemlösung von LLM zu testen), die Genauigkeit der GPT-4-Verarbeitung von Chinesisch Es liegt bei etwa 80 %, was besser ist als die englische Leistung anderer LLMs wie GPT-3.5, Chinchilla und PALM.

Trial-Methode

Abonnenten von ChatGPT Plus sind Early Adopter und erhalten nutzungsbeschränkten GPT-4-Zugriff auf chat.openai.com.
Rufen Sie die API auf, besuchen Sie https://openai.com/waitlist/gpt-4 , um sich in die Warteliste einzutragen

OpenAI veröffentlicht offiziell GPT-4

Supongo que te gusta