Großes Modell eines serverlosen Inferenzsystems

Das Open-Source-Community-Team China machte seine erste Live-Übertragung und erzählte im Namen des Teilens die Geschichte hinter der Open-Source-Community China.“

Klicken Sie hier, um den vollständigen Veranstaltungsbericht anzuzeigen: https://my.oschina.net/u/4489239/blog/11105657

Klicken Sie hier, um zur Vorschau der Shenzhen Yuanchuang-Konferenz am 18. Mai zu springen: https://www.oschina.net/event/2332004

Am 20. April fand in Wuhan erfolgreich die 102. Yuanchuang-Konferenz statt. Diese Ausgabe lädt Experten für künstliche Intelligenz vom Wuhan Artificial Intelligence Research Institute, Huawei, MindSpore, JD Cloud und Gitee AI ein, Vorträge zum Thema [Wettbewerb großer Modelle und Leistungsoptimierung] zu halten. Derzeit stellen einige Modellparteien oder -plattformen einzelnen Benutzern kostenlose Rechenleistung zur Verfügung, um die Technologie großer Modelle zu nutzen. Gitee.AI stellt als große Modellaggregationsplattform auch einzelnen Benutzern kostenlose Rechenleistung zur Verfügung. Lin Jiazhen, Fachberater von Gitee AI und Institute of High Performance Computing der Tsinghua-Universität, hielt eine Grundsatzrede zum Thema „Large Model Serverless Inference System“.

Lin Jiazhen wies darauf hin, dass Gitee.AI derzeit mehr als 2.000 Modelle aggregiert, die freien Rechenressourcen jedoch begrenzt sind. Daher ist es notwendig, diese freien Rechenressourcen den Entwicklern bei Bedarf effizienter zuzuweisen, was derzeit eine große Herausforderung darstellt Probleme. Wenn beispielsweise in der Vergangenheit die Container-Technologie für die externe Entwicklung verwendet wurde, ging das Ein- und Auswechseln sowie das Aufwecken eines einzelnen Containers sehr schnell vonstatten. Dies ist jedoch im Zeitalter großer Modelle schwierig geworden -Up und Sleep des Modells machen die Swap-In- und Swap-Out-Verwaltung von Containern in der Vergangenheit genauso effizient.

Serverlose KI bietet vier Hauptvorteile: einfache Bereitstellung, sofort einsatzbereite Nutzung, geringere Kosten für die Rechenleistung, Abdeckung gängiger Modelle und Unterstützung für eine Vielzahl von Computerhardware. Es gibt ein Problem mit der aktuellen Modell-Engine oder der Art und Weise, wie Rechenleistung erworben und genutzt wird. Das heißt, Benutzerprogramme, Modelle und Inferenzchips sind alle an einen Container gebunden, belegen den Hardware-Chip und nutzen Rechenleistungsdienste. Die serverlose Inferenz-Engine integriert und optimiert Rechenleistungsressourcen, reduziert die Kopplung zwischen Anwendungen, Modellen und Rechenleistung durch mehrere Deaggregationsebenen, weist Rechenleistung nach Bedarf zu und verbessert die Ressourcennutzung.

Die serverlose Systemarchitektur ist in drei Schichten unterteilt. Das Laden des Modells im Container wird nicht geändert, sondern durch ersetzt Back-End-Inferenz zur Realisierung der Modell- und Chip-Depolymerisation. rpc wird der Inferenz-Engine auf der oberen Ebene übergeben. Die Inferenz-Engine ist der Cluster, in dem die Berechnungen tatsächlich durchgeführt werden. Auf dieser Ebene werden Daten und Rechenleistung deaggregiert. Nehmen Sie beispielsweise ein Aufgabenszenario an, in dem zehn Karten die Planungsanforderung von 3000 Modellen erfüllen. Zu diesem Zeitpunkt gibt es keine Möglichkeit, ein großes Modell fest auf eine Karte zu laden. Es ist erforderlich, das gewünschte Modell vorübergehend und dynamisch zu laden Daher werden die berechneten Chip- und Modellgewichte deaggregiert und das Modell auf TanserGraph platziert, einem heterogenen Speichersystem, das die Deaggregation von Rechenleistungschips und -modellen unterstützen kann. Auf der obersten Ebene, der serverlosen Ebene, werden Anwendungen, Inferenz und Aggregation ausgeführt.

Die Kernfunktion der serverlosen Systemarchitektur ist heterogener, miteinander verbundener Speicher zur Lösung des Modellgewichtungsproblems. Die gesamte Rechenzentrumsarchitektur weist einige Einschränkungen auf, wie z. B. eine geringe Ressourcenauslastung und eine begrenzte Hardware-Skalierbarkeit. Die Disaggregationstechnologie kann jede Komponente in der Gesamtarchitektur physisch trennen und eine bestimmte Verbindung verwenden, um die Steuerschnittstelle (Kontrollebene) jeder Komponente und Daten zu verbinden Schnittstelle (Data Plane) zur bedarfsgerechten Zuweisung und Erweiterung verschiedener Ressourcen. Darüber hinaus bietet die Speicherdeaggregation auch Anwendungsvorteile in Cloud-Szenarien, einschließlich einer verbesserten Ressourcennutzung in der Cloud-Umgebung und einer einfacheren Deckung des wachsenden Bedarfs an Speicherressourcen.

Allerdings ist das bestehende hierarchische Speichersystem nicht für die hohe Hardwareflexibilität der Deaggregationsarchitektur geeignet und auch die Skalierbarkeit des Systems ist aufgrund der internen Strukturbeschränkungen des Systems begrenzt. Heterogener vernetzter Speicher kann diese Probleme über drei Verknüpfungen lösen: Hardware-Zugriffsstatistiken, programmierbare Strategien und Seitenmigration. Am Beispiel der CPU wird für Zugriffsstatistiken auf Basis von PEBs die Hardware dabei unterstützt, den Speicherzugriffsstatus des laufenden Programms zu erfassen, die Anweisungen, TID, Zieladresse usw. aufzuzeichnen und dann die Modellgewichte bei Bedarf zu laden.

Darüber hinaus verfügt die serverlose Systemarchitektur auch über verschiedene andere Funktionen, wie z. B. eine mehrstufige Optimierungstechnologie für die Kompilierung neuronaler Netze auf Basis von MLIR und einen leichtgewichtigen Systemdienstmechanismus auf Basis der User-Space-Isolation-Technologie. Die serverlose Inferenz-Engine basiert auf zwei Kerntechnologien für geistiges Eigentum. Darüber hinaus integriert sie auch verschiedene aktuelle Technologien zur Optimierung von Inferenzsystemen.

Derzeit wurde Llama 3 auf Gitee AI gestartet. Kopieren Sie den Link unten in Ihren Browser und betreten Sie die Plattform, um es zu erleben (Einladungscode: llama3):

https://ai.gitee.com/hf-models/shenzhi-wang/Llama3-8B-Chinese-Chat

Scannen Sie den QR-Code, um die Wiederholung der Vorlesung „Large Model Serverless Inference System“ anzusehen ⬇️

Großes Modell eines serverlosen Inferenzsystems

Ich denke du magst