Inspur Information veröffentlicht Designrichtlinien für die gesamte Branche, um die Entwicklung generativer KI mit diversifizierter Rechenleistung und offenen Spezifikationen zu fördern

Mit der rasanten Entwicklung der generativen KI ist künstliche Intelligenz in allen Lebensbereichen weit verbreitet, die Nachfrage nach KI-Rechenleistung ist stark gestiegen und der Diversifizierungstrend bei KI-Chips ist deutlich geworden, was zu Herausforderungen wie der Entwicklung hoher Chips geführt hat Kosten und Schwierigkeiten bei der Verwendung mehrerer Chips. Kürzlich hat Inspur Information den „Open Acceleration Standardized AI Server Design Guide“ (im Folgenden als „Leitfaden“ bezeichnet) für die gesamte Branche veröffentlicht. Der „Leitfaden“ basiert auf der umfangreichen Produktentwicklungs- und Ingenieurpraxiserfahrung von Inspur Information im Bereich Open Accelerated Computing und bietet eine Referenz für KI-Beschleunigerkarten und Systemdesign, wodurch der Anpassungszyklus von KI-Beschleunigerkarten und KI-Servern erheblich verkürzt und gefördert wird Generative KI diversifizierte die Rechenleistung. Entwicklung, um Benutzern dabei zu helfen, die enormen Chancen zu nutzen, die sich in der Computerbranche durch die Explosion der generativen KI ergeben.

Die Nachfrage nach KI- Rechenleistung ist explodiert und das Problem der Chip-Diversifizierung muss dringend gelöst werden

Derzeit entwickelt sich die generative KI-Technologie rasant und führt eine neue Welle von KI-Innovationen an. Die Folge ist ein Anstieg der Nachfrage nach generativer KI-Rechenleistung, der die Transformation und Modernisierung der Rechenleistungsbranche vorantreibt. Henessy und Patterson führten vor einigen Jahren in „Das neue goldene Zeitalter der Computerarchitektur“ das Konzept der domänenspezifischen Architekturen (DSAs) ein. Das heißt, da sich die Entwicklung der allgemeinen Computertechnologie allmählich verlangsamt, ist es notwendig, sich auf spezifische Probleme zu konzentrieren oder Domänenspezifische Computerarchitekturen haben zunehmend an Bedeutung gewonnen. KI-Rechnerchips, die auf der Idee von DSAs basieren, haben unter bestimmten Arbeitslasten der künstlichen Intelligenz Verarbeitungskapazitäten gezeigt, die über Allzweckchips hinausgehen, was die Entwicklung diversifizierter KI-Chips erheblich vorangetrieben hat.

Derzeit haben Hunderte von Unternehmen auf der ganzen Welt in die Entwicklung neuer KI-Beschleunigungschips investiert, was jedoch auch neue Herausforderungen mit sich bringt. Die Hauptmerkmale sind, dass die Leistung der einzelnen Maschinen, der Stromverbrauch und die Skalierbarkeit höher sind und die Rechenleistungsplattform größer ist, was höhere Anforderungen an die Verbindung zwischen den Karten, die Netzwerkbandbreite und die Latenz stellt. Die zwischen Beschleunigungskarten kommunizierte Datenmenge nimmt zu und die herkömmliche PCIe-P2P-Kommunikation allein kann die Anforderungen extrem großer Deep-Learning-Modelle nicht mehr erfüllen.

Um diese Probleme zu lösen, haben Chiphersteller sukzessive ihre eigene, nicht standardmäßige PCIe-CEM-Form von KI-Beschleunigerkarten auf den Markt gebracht. Diese neuen Formen von KI-Beschleunigerkarten unterstützen einen höheren Stromverbrauch und stärkere Verbindungsfunktionen zwischen den Karten. Allerdings verfolgen verschiedene Hersteller unterschiedliche technische Wege, was zu unterschiedlichen Chips führt, die angepasste System-Hardwareplattformen erfordern. Die Entwicklung einer Systemplattform dauert normalerweise etwa 6 bis 12 Monate. Proprietäre KI-Computing-Hardwaresysteme haben lange Entwicklungszyklen und hohe F&E-Kosten, was die F&E-Innovation und Anwendungsförderung neuer KI-Beschleunigungschips ernsthaft behindert.

Die OAI- Architektur wurde für extrem große Modelle tiefer neuronaler Netzwerke entwickelt

Die Open Computing Organization OCP hat 2019 eine Open Accelerated Computing (OAI)-Systemarchitektur speziell für das Training großer Modelle veröffentlicht. Der Beschleuniger in Form einer Mezz-Karte verfügt über eine höhere Wärmeableitung und Verbindungsmöglichkeiten und kann Chips mit höherer Rechenleistung transportieren. Gleichzeitig verfügt es über eine sehr starke knotenübergreifende Skalierbarkeit und kann problemlos auf Kilo- und Zehntausend-Karten-Plattformen erweitert werden, um das Training großer Modelle zu unterstützen. Diese Architektur ist eine Computerarchitektur, die sich natürlich für das Training tiefer neuronaler Netze in sehr großem Maßstab eignet.

Allerdings weisen die von vielen Herstellern entwickelten Beschleunigerkarten im Prozess der industriellen Implementierung immer noch Inkonsistenzen bei Hardwareschnittstellen, Verbindungsprotokollen und Software-Ökosystemen auf, die nicht miteinander kompatibel sind, was zu langen Anpassungszyklen und Anpassungsinvestitionen für neue KI-Beschleunigerkartensysteme führt Die hohen Implementierungskosten haben zu einer wachsenden Kluft zwischen Rechenleistungsangebot und Rechenleistungsnachfrage geführt. Die Branche benötigt dringend eine offenere Rechenleistungsplattform und eine vielfältigere Rechenleistung, um das Training großer Modelle zu unterstützen.

Darüber hinaus werden Benutzer aufgrund der unterschiedlichen Verbindungs- und Zugriffsstandards verschiedener Arten von KI-Chips auch auf verschiedene Probleme stoßen, wie z. B. Systemanpassung, Chiptreiber, Verbindung, Stromverbrauchsverwaltung, sichere Übertragung, Benutzerfreundlichkeit usw., wenn sie mehrere verwenden KI-Chipsysteme: Dieses Problem stellt Benutzer vor große Herausforderungen, wenn sie mehrere KI-Chip-Rechenleistungssysteme einsetzen.

Vom offenen Beschleunigungssubstrat bis zur Implementierung der Kilokalorien-Rechenleistungsplattform: Der Weg von Inspur Information zu diversifizierter Rechenleistung

Chip-Diversifizierung und Fragmentierung von Chip-Ökosystemen sind Herausforderungen, die auf dem Weg zur Entwicklung künstlicher Intelligenz gelöst werden müssen. Basierend auf dieser Erkenntnis entwirft Inspur Information seit 2018 Pläne und fördert weiterhin die Etablierung von Open Acceleration Specification (OAM) und Produkttechnologieinnovationen, um Chipherstellern dabei zu helfen, Anpassungszyklen und F&E-Kosten auf der Ebene der Systemarchitektur zu reduzieren Benutzer können schneller und effizienter arbeiten. Nutzen Sie bequem mehrere KI-Rechenleistungen.

Die erste Aufgabe von Inspur Information besteht darin, ein universelles Beschleunigersubstrat UBB zu schaffen, das mit einer Vielzahl von OAM-Chips kompatibel ist, und darauf basierend Computersysteme zu entwickeln. Im Jahr 2019 entwickelte Inspur Information das erste offene beschleunigte Computersystem MX1. MX1 nutzt hohe Bandbreite, duale Stromversorgung und andere Technologien. Das 21-Zoll-System kann eine Vielzahl von KI-Beschleunigern unterstützen, die den OAM-Spezifikationen entsprechen. Die gesamte Chip-Verbindungsbandbreite erreicht 224 Gbit/s und bietet vollständig verbunden (vollständig verbunden) und Hybrid drei -dimensionale Verbindung HCM (Hybrid Cube Mesh) Zwei Verbindungstopologien ermöglichen es Benutzern, Chip-Verbindungslösungen flexibel zu entwerfen, basierend auf den Chip-Kommunikationsanforderungen für verschiedene neuronale Netzwerkmodelle.

Nach der Einführung von MX1 zeigte die Marktnachfrage, dass die groß angelegte Implementierung mehrerer Chips die Unterstützung kompletter Server erfordert. Daher investierte Inspur Information in die Forschung und Entwicklung von OAM-Servern. Im Jahr 2021 veröffentlichte Inspur Information den branchenweit ersten OAM-Server NF5498A5, der 8 OAM-Beschleunigerkarten und 2 Hochleistungs-CPUs in einem 19-Zoll-Gehäuse mit einer Verbindungsbandbreite von 448 GB/s zwischen den Karten integriert. Im Jahr 2022 wird der flüssigkeitsgekühlte OAM-Server „Qiantang River“ auf den Markt gebracht, um die Flüssigkeitskühlung von 8 OAM-Beschleunigern und zwei Hochleistungs-CPUs zu realisieren. Die Abdeckungsrate der Flüssigkeitskühlung übersteigt 90 %. Der flüssigkeitsgekühlte OAM basiert auf „Qiantang“. River“ Intelligente Rechenzentrumslösung, der PUE-Wert der Kilocalcal-Plattform liegt bei stabilem Betrieb unter 1,1. In diesem Jahr wurde eine neue Generation des offenen, beschleunigten KI-Servers NF5698G7 veröffentlicht, der 8 OAM-Hochgeschwindigkeitsverbindungs-Gaudi2-Beschleuniger unterstützt. Basierend auf vollständigen PCIe-Gen5-Verbindungen wird die H2D-Verbindungsfähigkeit um das Vierfache erhöht, was ein leistungsstarkes Training und Inferenz für große Modelle ermöglicht Fähigkeiten.

Gleichzeitig hat Inspur Information als Reaktion auf die Verwaltungs- und Planungsprobleme mehrerer Chips die KI-Plattform AIStation auf den Markt gebracht, mit der mehr als 30 KI-Chips effizient geplant werden können. Durch die Anpassung an die von Inspur Information bereitgestellten Spezifikationen für den Zugriff auf die Rechenleistung von KI-Chips können KI-Chips schnell auf die AIStation-Plattform zugreifen, wodurch Benutzer die Schwierigkeiten bei der Verwendung und Verwaltung mehrerer KI-Chips verringern können.

Die zahlreichen KI-Rechenleistungsproduktlösungen von Inspur Information wurden von vielen Benutzern anerkannt und in mehreren intelligenten Rechenzentren implementiert. Sie unterstützen erfolgreich mehrere ultragroße und massive Modelle wie GPT-2, Source 1.0 und selbst entwickelte Proteinstrukturvorhersage im Labor. Effizientes Training und Einsatz intelligenter Assistentenanwendungen für das Verfassen von Gedichten ermöglichen es den Menschen, die überragende Sprachintelligenz des großen Quellmodells 1.0 zu erleben und die Implementierung generativer KI-Anwendungen zu beschleunigen.

Veröffentlichen Sie die „Leitlinien“ für die gesamte Branche, um den Herausforderungen der generativen KI mit offenen Spezifikationen zu begegnen

Basierend auf seiner reichen Erfahrung in Forschung und Entwicklung sowie in der technischen Praxis von Multi-Computing-Produkten hat Inspur Information kürzlich den „Open Acceleration Specification AI Server Design Guide“ für die gesamte Branche herausgegeben, in der Hoffnung, die Branche bei der effizienten Entwicklung von KI-Beschleunigerkarten zu unterstützen, die der offenen Spezifikation entsprechen Beschleunigungsspezifikation und verkürzen die erforderliche Zeit erheblich. Der Anpassungszyklus des KI-Servers bietet Benutzern KI-Rechenleistungsproduktlösungen, die am besten zu Anwendungsszenarien passen.

Der „Leitfaden“ weist darauf hin, dass das Design offener, beschleunigter und standardisierter KI-Server vier Hauptdesignprinzipien folgen sollte, nämlich anwendungsorientiert, vielfältig und offen, umweltfreundlich und effizient sowie koordiniertes Design. Auf dieser Grundlage sollten Entwurfsmethoden wie mehrdimensionales kollaboratives Design, umfassende Systemtests sowie Leistungsbewertung und -optimierung übernommen werden.

Konkret handelt es sich bei dem generativen KI-Rechensystem um einen integrierten hochintegrierten Rechenleistungscluster. Der „Guide“ bietet ein Full-Stack-Referenzdesign für Software und Hardware von Knoten bis hin zu Clustern und leitet Systemhersteller und Chiphersteller an, in den frühen Phasen der Planung eine umfassende und mehrdimensionale Zusammenarbeit durchzuführen, um benutzerdefinierte Entwicklungsinhalte zu minimieren.

Während des umfassenden Systemtests hat Inspur Information die in der Innovationspraxis im OAM-Bereich aufgetretenen Probleme detailliert beschrieben und in den „Leitfaden“ aufgenommen, um die Stabilität und Zuverlässigkeit des neuen F&E-Systems zu verbessern. Der „Leitfaden“ sortiert die Testpunkte umfassend nach Struktur, Wärmeableitung, Druck, Stabilität, Softwarekompatibilität usw., um Benutzern dabei zu helfen, umfassendere und strengere Tests durchzuführen und Fehler während der Systemproduktion, -bereitstellung und -betrieb zu minimieren. Risiko, Verbessern Sie die Systemstabilität und verringern Sie die Auswirkungen von Haltepunkten auf die Trainingskontinuität.

Generative KI erfordert eine höhere Leistung von Computersystemen. Die tatsächlichen Testoptimierungserfahrungen von Inspur Information beim Gewinn der Meisterschaft im weltweit maßgeblichen KI-Benchmark MLPerf und anderen Tests werden ebenfalls im „Guide“ vorgestellt. Der „Leitfaden“ bietet die wichtigsten Punkte und Indikatoren für die grundlegende Leistung, die Verbindungsleistung und das Testen der Modellleistung und weist auf die wichtigsten Punkte für das Training großer Modelle und die Optimierung der Inferenzleistung hin, um sicherzustellen, dass der KI-Server mit offener Beschleunigungsspezifikation den Strom effektiv unterstützen kann Mainstream-Großmodelle. Innovative Anwendungen.

Angesichts der Herausforderungen bei der Rechenleistung, die generative KI mit sich bringt, wird Inspur Information dem Konzept der Offenheit und Open Source treu bleiben, mit vor- und nachgelagerten Partnern in der Industriekette zusammenarbeiten, die Implementierung mehrerer KI-Rechenleistungsproduktlösungen beschleunigen und Benutzern dabei helfen, effizient zu bauen und stabile KI-Rechenleistungsplattformen beleuchten die Zukunft der generativen KI und fördern mehr Branchen, um die intelligente Transformation zu beschleunigen.

おすすめ

転載: blog.csdn.net/annawanglhong/article/details/133190263