Kapitel zur Grafikkarten-Rechenleistungskompetenz (3)

GPU-Kernarchitektur und -Parameter

 Unterschiede in den Kernparametern von NVIDIA-GPUs und ihre jeweiligen Vorteile.

  • CUDA Core: CUDA Core ist die Rechenkerneinheit der NVIDIA-GPU. Sie wird zur Ausführung allgemeiner paralleler Rechenaufgaben verwendet und ist der am häufigsten vorkommende Kerntyp. NVIDIA verwendet normalerweise die kleinste Recheneinheit, um seine Rechenkapazitäten darzustellen. CUDA Core bezieht sich auf ein Verarbeitungselement, das grundlegende Operationen ausführt. Die Anzahl der CUDA Cores, die wir nennen, entspricht normalerweise der Anzahl der FP32-Recheneinheiten.
  • Tensor Core: Tensor Core ist eine spezielle Recheneinheit, die in der NVIDIA Volta-Architektur und ihren nachfolgenden Architekturen (wie der Ampere-Architektur) eingeführt wurde. Sie werden speziell für Tensorberechnungen in Deep-Learning-Aufgaben wie Matrixmultiplikationen und Faltungsoperationen verwendet. Der Tensor-Core-Kern ist besonders groß und wird normalerweise in Kombination mit Deep-Learning-Frameworks (wie TensorFlow und PyTorch) verwendet. Er kann die gesamte Matrix für Batch-Operationen in Register laden und so eine zehnfache Effizienzsteigerung erzielen.
  • RT Core: RT Core ist NVIDIAs dedizierte Hardwareeinheit, die hauptsächlich zur Beschleunigung von Raytracing-Berechnungen verwendet wird. Normale GPU-Kerne auf Rechenzentrumsebene verfügen nicht über RT-Kerne. Es sind hauptsächlich Grafikkarten auf Verbraucherebene, die RTCores für Raytracing-Vorgänge hinzufügen. RT Core wird hauptsächlich in Bereichen wie Spieleentwicklung, Filmproduktion und virtueller Realität eingesetzt, die Echtzeit-Rendering erfordern.

 CUDA Core wird hauptsächlich für Vektorberechnungsaufgaben verwendet, und Tensor Core wird hauptsächlich für Matrix- und Faltungsberechnungsaufgaben (über IM2COL in Matrixmultiplikation umgewandelt) verwendet. Training und Inferenz umfassen Vektoraufgaben und Matrixaufgaben, sodass beide die Verwendung von Tensor umfassen Kern und CUDA. Gleichzeitig ist Tensor Core eine spezialisierte Matrix-Recheneinheit. Obwohl es nur wenige Einheiten für Matrix-Rechenaufgaben gibt, ist seine Durchsatzrate viel höher als die von CUDA Core, sodass Matrixaufgaben immer noch tendenziell mit Tensor Core abgeschlossen werden Berechnungen.

Tensor Core vs. CUDA Core

Unterscheidungsmerkmal

Tensorkern

CUDA-Kern

Hintergrund erscheint

Die KI entwickelt sich rasant weiter und der Bedarf an Rechenleistung bei der Matrixmultiplikation steigt weiter. Einige Hersteller haben das Konzept der TPU vorgeschlagen

Das wissenschaftliche Rechnen entwickelt sich rasant. Um die hohe Rechenleistung der GPU nutzen zu können, müssen Wissenschaftler wissenschaftliche Rechenaufgaben in Grafik- und Bildaufgaben umwandeln.

Ziel des Designs

Maßgeschneiderte Matrix-Computing-Funktionen (KI-Rechenleistung), Integration in das CUDA-Ökosystem und Nutzung der Rechenleistungsberge, die für das Computing mit künstlicher Intelligenz erforderlich sind

Stellen Sie Gleitkomma-Rechnerfunktionen dem Bereich des wissenschaftlichen Rechnens zur Verfügung, beschleunigen Sie das wissenschaftliche Rechnen und besetzen Sie den Markt für wissenschaftliches Rechnen

Art der Rechenaufgabe

Matrix-Multiplikation

Gleitkomma-Addition, Multiplikation, Multiplikation und Additionsoperationen

Berechnungsgenauigkeit

Schwerpunkt auf geringer Präzision: fp16/fp8/int8/int4/b1

IEEE-754-Standard-Float-Genauigkeit

Anzahl Baugruppen auf SM*

4

128

Planungsgranularität/Ausführungsgranularität

Warp-Ebene/Warp-Ebene

Warp-Ebene/Thread-Ebene

 Die Entwicklung der NVIDIA GPU-Architektur.

  • Volta-Architektur: Die Volta-Architektur ist die Architektur der sechsten Generation von NVIDIA-GPUs, die 2017 veröffentlicht wurde. Die Volta-Architektur konzentriert sich auf Deep-Learning- und künstliche Intelligenzanwendungen und führt Tensor-Kerne ein.
  • Turing-Architektur: Die Turing-Architektur ist die Architektur der siebten Generation von NVIDIA-GPUs, die 2018 veröffentlicht wurde. Die Turing-Architektur führt wichtige Funktionen wie Echtzeit-Raytracing (RTX) und Deep-Learning-Supersampling (DLSS) ein.
  • Ampere-Architektur: Die Ampere-Architektur ist die Architektur der achten Generation von NVIDIA-GPUs, die im Jahr 2020 veröffentlicht wurde. Die Ampere-Architektur bietet erhebliche Verbesserungen bei Rechenleistung, Energieeffizienz und Deep-Learning-Leistung. Die GPU mit Ampere-Architektur nutzt mehrere Streaming-Multiprozessoren (SM) und eine größere Busbreite, wodurch mehr CUDA-Kerne und höhere Frequenzen bereitgestellt werden. Außerdem wird die dritte Generation von Tensor Core eingeführt, die eine leistungsstärkere Deep-Learning-Rechenleistung bietet. Ampere-basierte GPUs verfügen außerdem über eine höhere Speicherkapazität und Bandbreite, wodurch sie sich für umfangreiche Datenverarbeitungs- und maschinelle Lernaufgaben eignen.
  • Hopper-Architektur: Die Hopper-Architektur ist die Architektur der neunten Generation von NVIDIA-GPUs, die 2022 veröffentlicht wurde. Im Vergleich zu Ampere unterstützt die Hopper-Architektur den Tensor Core der vierten Generation und verwendet einen neuen Stream-Prozessor, wobei jeder SM über stärkere Fähigkeiten verfügt. Die Hopper-Architektur bringt neue Innovationen und Verbesserungen in Bezug auf Rechenleistung, Deep-Learning-Beschleunigung und Grafikfunktionen.

V100 vs. A100 vs. A800 vs. H100

V100 vs. A100

V100 gehört zur Volta-Architektur. Es verwendet einen 12-nm-FinFET-Prozess, verfügt über 5120 CUDA-Kerne und 16 GB bis 32 GB HBM2-Videospeicher. Es ist mit der Tensor Cores-Technologie der ersten Generation ausgestattet und unterstützt KI-Computing.

Der A100 nutzt die neue Ampere-Architektur. Es verfügt über bis zu 6912 CUDA-Kerne und 40 GB Hochgeschwindigkeits-HBM2-Speicher. A100 unterstützt außerdem die NVLink-Technologie der zweiten Generation, die eine schnelle GPU-zu-GPU-Kommunikation ermöglicht und die Trainingsgeschwindigkeit großer Modelle verbessert. A100 fügt leistungsstarke neue Tensorkerne der dritten Generation hinzu und bietet gleichzeitig volle Unterstützung für DL- und HPC-Datentypen sowie neue Sparse-Funktionen, um den Durchsatz weiter zu verdoppeln.

TF32 Tensor Core-Operationen in A100 bieten einen einfachen Weg zur Beschleunigung von FP32-Eingabe-/Ausgabedaten in DL-Frameworks und HPC und laufen 10x schneller als V100 FP32 FMA-Operationen bzw. 20x schneller im Fall von Sparsity. Bei FP 16/FP 32 Mixed Precision DL ist die Leistung von A100 2,5-mal so hoch wie die von V100 und steigt bei Sparsity auf das Fünffache.

Wenn Sie beim Ausführen von KI-Modellen das PyTorch-Framework verwenden, wird die Leistung von A100 im Vergleich zum V100-Chip der vorherigen Generation um das Sechsfache beim BERT-Modelltraining und um das Siebenfache bei der BERT-Inferenzleistung verbessert.

Leistungsvergleich zwischen V100 und A100 im BERT-Training und in der Inferenz

A100 vs. H100

NVIDIA H100 nutzt die NVIDIA Hopper GPU-Architektur, um einen weiteren großen Sprung in der beschleunigten Rechenleistung von NVIDIA-Rechenzentrumsplattformen zu erzielen. Der H100 wird mit dem für NVIDIA angepassten TSMC 4N-Prozess hergestellt, verfügt über 80 Milliarden Transistoren und umfasst mehrere architektonische Verbesserungen.

Die H100 ist NVIDIAs Rechenzentrums-GPU der 9. Generation, die für einen Leistungssprung um eine Größenordnung gegenüber der NVIDIA A100 Tensor Core GPU der vorherigen Generation für groß angelegte KI und HPC ausgelegt ist. Der H100 setzt den zentralen Designschwerpunkt des A100 fort und bietet leistungsstarke Skalierbarkeit für KI- und HPC-Workloads sowie erhebliche architektonische Effizienzsteigerungen.

H100 FP16 hat den dreifachen Durchsatz von A100 FP16
H100 FP8 hat den sechsfachen Durchsatz von A100 FP16

A800 und H800

Wir haben vereinbart, zum Vergleich die GPUs V100, A100, A800, H100 und H800 zu verwenden, aber warum haben wir A800 und H800 nicht gesehen? Ist es dem Modell nach zu urteilen möglich, dass ihre Leistung um ein Vielfaches höher ist als die von A100 und H800?

Das ist nicht der Fall. Obwohl 800 numerisch gesehen größer als 100 ist, liegt dies tatsächlich daran, dass einige Parameter von A100 und H100 zur Einhaltung der Vorschriften angepasst wurden. Im Vergleich zum A100 begrenzt der A800 nur die Verbindungsbandbreite zwischen GPUs, die von 600 GB/s beim A100 auf 400 GB/s reduziert wurde, und die Rechenleistungsparameter bleiben unverändert. Beim H800 wurden sowohl die Rechenleistung als auch die Internetbandbreite angepasst.

Obwohl der A800 über eine geringere Verbindungsbandbreite verfügt, verfügt er in Bezug auf doppelte Präzision über die gleiche Rechenleistung wie der A100 und hat keinen Einfluss auf den Bereich des wissenschaftlichen Hochleistungsrechnens.

Je suppose que tu aimes

Origine blog.csdn.net/bestpasu/article/details/134098712
conseillé
Classement