Google bringt Gemini auf den Markt, um GPT-4 fünfmal schneller zu schlagen

8a084fe88e53af5f6d5e02c2d0884a5b.jpeg

Vor dem Ausbruch von Covid-19 veröffentlichte Google das MEENA-Modell, das in kurzer Zeit zum besten groß angelegten Sprachmodell der Welt wurde. Der von Google veröffentlichte Blog und Artikel ist sehr schön, da darin insbesondere ein Vergleich mit OpenAI gezogen wird.

Im Vergleich zum bestehenden hochmodernen generativen Modell OpenAI GPT-2 verfügt MEENA über eine 1,7-mal größere Modellkapazität und 8,5-mal mehr Trainingsdaten.

Das Training dieses Modells erforderte 14-mal mehr Gleitkommaoperationen (FLOPS) als GPT-2, aber das war weitgehend irrelevant, da OpenAI nur wenige Monate später GPT-3 auf den Markt brachte, dessen Parameter mehr als 65-mal höher sind als die von GPT-2. Die Anzahl der Token ist mehr als 60-mal so hoch wie bei GPT-2 und die FLOPS sind um mehr als das 4.000-fache gestiegen. Der Leistungsunterschied zwischen den beiden Modellen ist enorm.

Das MEENA-Modell löste ein internes Memo mit dem Titel „MEENA Eats the World“ aus, das von Noam Shazeer verfasst wurde. In diesem Memo sagt er voraus, was der Rest der Welt nach der Veröffentlichung von ChatGPT realisieren wird. Die Grundidee besteht darin, dass Sprachmodelle auf verschiedene Weise immer stärker in unser Leben integriert werden und die weltweit eingesetzten FLOPS dominieren werden. Als er das Memo schrieb, waren seine Ansichten ihrer Zeit voraus, wurden jedoch von den meisten wichtigen Entscheidungsträgern dieser Zeit ignoriert oder sogar lächerlich gemacht.

Lassen Sie uns ein wenig abschweifen und sehen, wie vorausschauend Noam wirklich war. Er war Mitglied des Teams, das den ursprünglichen Transformer-Artikel „Attention is All You Need“ verfasste. Er war auch am ersten modernen Mixture of Experts-Artikel, Switch Transformer, Image Transformer und verschiedenen Aspekten von LaMDA und PaLM beteiligt. Eine seiner Ideen aus dem Jahr 2018, die in größerem Maßstab noch keine breite Anerkennung gefunden hat, ist die „spekulative Dekodierung“, die wir in unserer exklusiven Enthüllung zu GPT-4 ausführlich beschrieben haben. Durch spekulative Dekodierung können die Inferenzkosten um ein Vielfaches gesenkt werden.

Der Punkt hier ist, dass Google alle Zutaten für den Erfolg hat, aber sie liegen falsch. Das ist etwas, das offensichtlich jeder gesehen hat.

Was vielleicht nicht offensichtlich ist, ist, dass der schlafende Riese Google aufgewacht ist und mit einer Geschwindigkeit iteriert, die die gesamte FLOPS-Geschwindigkeit von GPT-4 vor dem Training um das Fünffache übertrifft, was vor Jahresende erwartet wird. Basierend auf ihrem aktuellen Infrastrukturaufbau ist ihr Weg bis Ende nächsten Jahres klar erkennbar, möglicherweise 100x. Ob Google den Mut hätte, diese Modelle öffentlich zu veröffentlichen, ohne seine Kreativität oder sein bestehendes Geschäftsmodell zu untergraben, ist eine andere Diskussion.

Heute möchten wir über das Gemini-Trainingssystem von Google, die Iterationsgeschwindigkeit des Gemini-Modells, den Start von Googles Viperfish (TPUv5), Googles zukünftige Wettbewerbsfähigkeit gegenüber anderen hochmodernen Labors und eine Gruppe sprechen, die wir die „Grafikarmen“ nennen.


G PU-R ich Grafikkarte reich

Der Erwerb von Rechenressourcen weist eine bimodale Verteilung auf. Nur wenige Unternehmen verfügen über mehr als 20.000 A/H100-Karten, und einzelne Forscher können für kleine Projekte Hunderte oder Tausende von Karten erhalten. Zu den großen Unternehmen gehören OpenAI, Google, Anthropic, Inflection, X und Meta, die über das höchste Verhältnis von Rechenressourcen zu Forschern verfügen. Einige der oben genannten Unternehmen sowie mehrere chinesische Unternehmen werden bis Ende nächsten Jahres über mehr als 100.000 Grafikkarten verfügen, wobei wir uns über den Anteil der Forscher in China nicht sicher sind, sondern nur über die Anzahl der Grafikkarten.

Einer der interessantesten Trends, die wir in der Bay Area gesehen haben, ist die Möglichkeit für Spitzenforscher im Bereich maschinelles Lernen, damit zu prahlen, wie viele Grafikkarten sie haben oder haben werden. Tatsächlich ist dieses Phänomen in den letzten etwa vier Monaten so weit verbreitet, dass es zu einem Wettbewerb geworden ist, der sich direkt darauf auswirkt, wohin Spitzenforscher gehen. Meta, das Unternehmen, das weltweit die zweitgrößte Anzahl an H100-Grafikkarten besitzen wird, nutzt dies als Rekrutierungsstrategie.


G PU-P oder Grafikkarte, armer Mann

Dann sind da noch die vielen Startups und Open-Source-Forscher, die vor dem Dilemma stehen, weniger Grafikkarten zu haben. Sie verbringen viel Zeit und Energie damit, Dinge zu tun, die überhaupt nicht hilfreich oder eigentlich unwichtig sind. Viele Forscher verbringen beispielsweise unzählige Stunden mit der Feinabstimmung von Modellen und verwenden dabei Grafikkarten, die nicht über genügend VRAM verfügen, was eine äußerst ineffiziente Nutzung ihrer Fähigkeiten und Zeit darstellt.

Diese Startups und Open-Source-Forscher verwenden größere Sprachmodelle, um kleinere Modelle für Benchmarks im Leaderboard-Stil zu verfeinern, die fehlerhafte Bewertungsmethoden verwenden, bei denen Stil wichtiger ist als Genauigkeit oder Nützlichkeit. Sie wissen oft nicht, dass die Pre-Training-Datensätze und IFT-Daten größer/von höherer Qualität sein müssen, damit kleinere offene Modelle bei realen Arbeitslasten besser werden.

Ja, es ist wichtig, Ihre Grafikkarte effizient zu nutzen, aber in vielerlei Hinsicht wird dies von grafikarmen Menschen übersehen. Sie legen keinen Wert auf Skaleneffekte und ihre Zeit wird nicht effizient genutzt. Für eine Welt, die bis Ende nächsten Jahres voraussichtlich über 3,5 Millionen H100-Grafikkarten haben wird, ist es weitgehend irrelevant, was in ihrer grafikarmen Umgebung kommerziell möglich ist. Zum Lernen und Experimentieren reicht eine kleinere, schwächere Gaming-Grafikkarte völlig aus.

Grafikarme Leute verwenden immer noch hauptsächlich dichte Modelle, denn das ist die LLAMA-Modellreihe, die Meta ihnen elegant in die Hand legt. Ohne die Gnade Gottes Zach wären die meisten Open-Source-Projekte wahrscheinlich schlechter dran. Wenn ihnen die Effizienz, insbesondere auf der Clientseite, wirklich am Herzen liegt, würden sie spärliche Modellarchitekturen wie MoE ausführen, auf diesen größeren Datensätzen trainieren und Tools wie hochmoderne LLM-Labore (OpenAI, Anthropic, Google Deepmind) verwenden, um eine spekulative Dekodierung zu erreichen.

Der Schwerpunkt dieser Nachteile sollte darauf liegen, dies auszugleichen, indem die Anforderungen an die Rechen- und Speicherkapazität erhöht werden, um die Modellleistung oder die Token-zu-Token-Latenz im Austausch für eine geringere Speicherbandbreite zu verbessern, da diese am Rand erforderlich ist. Sie sollten sich darauf konzentrieren, mehrere fein abgestimmte Modelle effizient auf einer gemeinsamen Infrastruktur bereitzustellen, ohne die horrenden Kosten kleiner Batch-Größen zu zahlen. Sie haben sich jedoch auf Einschränkungen der Speicherkapazität oder Überquantisierung konzentriert und dabei die Augen vor echten Qualitätsverschlechterungen verschlossen.

Eine geringfügige Abweichung ist bei der Modellbewertung im Allgemeinen problematisch. Während es in der geschlossenen Welt viele Bemühungen gibt, dies zu verbessern, macht es wenig Sinn, die Welt des Benchmarkings zu öffnen, und es wird fast nichts Nützliches gemessen. Aus irgendeinem Grund gibt es eine ungesunde Besessenheit von der Bestenliste von LLM und der Memeifizierung alberner Namen für nutzlose Modelle. Hoffentlich können die Open-Source-Bemühungen auf Auswertung, spekulative Dekodierung, MoE, offene IFT-Daten und saubere Pre-Training-Datensätze mit über 1 Billion Labels umgelenkt werden, sonst wird Open Source nicht in der Lage sein, mit kommerziellen Giganten zu konkurrieren.

Während die Vereinigten Staaten und China weiterhin führend sein werden, werden europäische Start-ups und staatlich geförderte Supercomputer wie Jules Verne einfach nicht mithalten können. Europa wird in diesem Spiel ins Hintertreffen geraten, da es an Kapazitäten für massive Investitionen mangelt und sich dafür entscheidet, arm an Grafikkarten zu bleiben. Sogar mehrere Länder im Nahen Osten investieren mehr Geld in groß angelegte Infrastruktur, um KI zu fördern.

Allerdings sind die schlechten Grafiken nicht auf Startups beschränkt. Einige der bekanntesten KI-Unternehmen wie HuggingFace, Databricks (MosaicML) und Together gehören ebenfalls zu den Grafikarmen. Tatsächlich sind sie wahrscheinlich die ärmste Gruppe, von der Anzahl der Weltklasseforscher pro GPU bis hin zum Verhältnis zwischen der Anzahl der GPUs und der Ambition/potenziellen Kundennachfrage. Diese Unternehmen verfügen über erstklassige Forscher, ihr Wachstum wird jedoch durch die relativ geringe Leistungsfähigkeit der von ihnen verwendeten Systeme begrenzt. Diese Unternehmen sind bei Unternehmen sehr gefragt, wenn es darum geht, reale Modelle zu trainieren, und es sind Tausende von H100-Grafikkarten eingetroffen, aber das reicht nicht aus, um einen Großteil des Marktanteils zu erobern.

Nvidia frisst seinen Marktanteil mit der Multiplex-Anzahl an Grafikkarten in seinem DGX-Cloud-Dienst und verschiedenen hauseigenen Supercomputern auf. Die DGX Cloud von Nvidia bietet vorab trainierte Modelle, Datenverarbeitungs-Frameworks, Vektordatenbanken und Personalisierung, optimierte Inferenz-Engines, APIs und Unterstützung durch NVIDIA-Experten, um Unternehmen bei der Anpassung von Modellen an ihre individuellen Verwendungszwecke zu unterstützen. Darüber hinaus unterstützt der Dienst bereits mehrere große Unternehmen aus Branchen wie SaaS, Versicherungen, Fertigung, Pharma, Produktionssoftware und Automotive. Zwar wurden nicht alle Kunden bekannt gegeben, darunter Amgen, Adobe, CCC, ServiceNow, Accenture, AstraZeneca, Getty Images, Shutterstock, Morningstar, Evozyne, Insilico Medicine, Quantiphi, InstaDeep, Oxford Nanopore, Peptone, Relation Therapeutics, ALCHEMAB Therapeutics und The List Auch die Anzahl öffentlicher Kunden wie Runway ist beeindruckend.

Das ist eine längere Liste als bei anderen Playern, und Nvidia hat viele andere nicht genannte Partnerschaften. Um es klarzustellen: Die Einnahmen dieser angekündigten Kunden aus den DGX-Cloud-Diensten von Nvidia sind unbekannt, aber angesichts des Umfangs der Cloud-Ausgaben von Nvidia und des internen Aufbaus von Supercomputern ist es wahrscheinlich, dass mehr Dienste aus der Cloud von Nvidia erworben werden können/werden, und zwar nicht nur, was HuggingFace sagt , Together und Databricks bieten können.

Die Hunderte Millionen, die HuggingFace und Together gesammelt haben, bedeuten, dass sie weiterhin grafikarm sind und nicht in der Lage sein werden, N-1-LLMs zu trainieren, die als Basismodelle für Kunden zur Feinabstimmung dienen können. Das bedeutet, dass es heute nicht mehr viele Unternehmen geben wird, die Zugriff auf die Dienste von Nvidia haben.

Insbesondere HuggingFace genießt den größten Ruf in der Branche und muss diesen nutzen, um erhebliche Geldbeträge zu investieren und mehr Modelle, Anpassungs- und Inferenzfunktionen zu entwickeln. Ihre letzte Finanzierungsrunde war überbewertet und es gelang ihnen nicht, die nötigen Investitionen zu erhalten, um im Wettbewerb bestehen zu können. Das Ranking von HuggingFace zeigt, wie blind sie sind, da sie die Open-Source-Bewegung dazu verleiten, eine Reihe von Modellen zu erstellen, die im realen Einsatz nutzlos sind.

Databricks (MosaicML) kann möglicherweise zumindest bei seinen Daten- und Unternehmensverbindungen aufholen. Das Problem besteht darin, dass sie ihre Ausgaben beschleunigen müssen, wenn sie hoffentlich mehr als 7.000 Kunden bedienen wollen. Die 1,3-Milliarden-Dollar-Übernahme von MosaicML ist ein bedeutender Einsatz in dieser Branche, aber das Unternehmen muss auch ähnliche Beträge in die Infrastruktur investieren. Leider kann Databricks die Grafikkarte nicht mit Lagerbeständen bezahlen. Sie müssen im Rahmen ihrer bevorstehenden Privatplatzierungsrunde bzw. ihres bevorstehenden Börsengangs ein umfangreiches Angebot machen und das bare Geld nutzen, um ihre Investitionen in Hardware deutlich zu erhöhen.

Das wirtschaftliche Argument gilt hier nicht, denn sie müssen bauen, bevor die Kunden kommen, weil Nvidia Geld in ihren Service steckt. Um es klarzustellen: Viele Menschen haben große Mengen an Computerressourcen gekauft und ihr Geld nicht zurückbekommen (Cohere, Saudi-Arabien, Vereinigte Arabische Emirate), aber das ist eine Voraussetzung für den Wettbewerb.

Die Schulungs- und Inferenzbetriebsunternehmen (Databricks, HuggingFace und Together) liegen hinter ihren Hauptkonkurrenten zurück, die auch die Hauptquellen ihrer Rechenressourcen sind. Der nächstgrößere benutzerdefinierte Modelloperator ist einfach die Feinabstimmungs-API von OpenAI.

Der Punkt ist, dass sie von Meta über Microsoft bis hin zu Startups nur eine Möglichkeit sind, Geld auf das Bankkonto von Nvidia zu leiten.

Konnte uns irgendjemand aus der Sklaverei von Nvidia retten?

Ja, es gibt einen potenziellen Retter.


Google – das weltweit reichste Unternehmen an Computerressourcen


Während Google intern Grafikkarten verwendet und viele davon über GCP verkauft, hat das Unternehmen ein paar Tricks im Ärmel. Dazu gehören Gemini und Modelle der nächsten Generation, die bereits mit dem Training begonnen haben. Ihr wichtigster Vorteil ist ihre beispiellose und effiziente Infrastruktur. Google wird mehr TPUv5-Grafikkarten haben als OpenAI, Meta, CoreWeave, Oracle und Amazon zusammen.

おすすめ

転載: blog.csdn.net/specssss/article/details/132545639