NVIDIA Grace Blackwell GB200

NVIDIA GB200 NVL72

Antrieb für das neue Zeitalter des intelligenten Edge-Computings.

Erschließung von Echtzeitmodellen mit Billionen Parametern

Die GGB200 NVL72 verbindet 36 Grace-CPUs und 72 Blackwell-GPUs in einem flüssigkeitsgekühlten Design mit Rack-Skalierung. Sie verfügt über eine 72-GPU-NVLink-Domain, die wie eine einzige, massive GPU agiert und bei großen Sprachmodellen (LLMs) mit Billionen von Parametern eine 30-mal schnellere Echtzeit-Inferenz ermöglicht.

Der GB200 Grace Blackwell Superchip ist eine Schlüsselkomponente der NVIDIA GB200 NVL72. Er verbindet zwei leistungsstarke NVIDIA Blackwell Tensor Core-GPUs und eine NVIDIA Grace™-CPU über die NVIDIA NVLink™-C2C-Verbindung mit den beiden Blackwell-GPUs.

Die Blackwell-Architektur im Rack-Maßstab für Echtzeit-Inferenz und Training mit Billionen Parametern

NVIDIA GB200 NVL72 ist ein Exascale-Computer in einem einzigen Rack. Mit 36 GB200s, die über die größte NVIDIA® NVLink®-Domäne miteinander verbunden sind, bietet das NVLink-Switch-System 130 Terabyte pro Sekunde (TB/s) GPU-Kommunikation mit geringer Latenz für KI- und High-Performance-Computing(HPC)-Workloads.

Highlights

Optimierung für KI und beschleunigtes Computing der nächsten Generation

LLM-Inferenz

30X

LLM-Training

4X

Energieeffizienz

25X

Datenverarbeitung

18X

LLM-Inferenz und Energieeffizienz: TTL = 50 Millisekunden (ms) Echtzeit, FTL = 5 s, 32.768 Eingang/1.024 Ausgang, NVIDIA HGX™ H100 skaliert über InfiniBand (IB) vs. GB200 NVL72, Training, 1,8T MOE 4096x HGX H100 skaliert über IB vs. 456x GB200 NVL72 skaliert über IB. Clustergröße: 32.768
Ein Datenbank-Join- und Aggregations-Workload mit Snappy/Deflate-Komprimierung, abgeleitet von einer TPC-HQ4-Abfrage. Benutzerdefinierte Abfrageimplementierungen für x86, H100 mit einem einzelnen Grafikprozessor und für einen einzelnen Grafikprozessor aus GB200 NLV72 vs. Intel Xeon 8480+
Die projizierte Leistung kann Änderungen unterliegen.

Echtzeit-LLM-Inferenz

Die GB200 NVL72 führt innovative Funktionen und eine Transformer-Engine der zweiten Generation ein, die FP4-KI unterstützt. In Verbindung mit NVIDIA NVLink der fünften Generation wird bei Sprachmodellen mit Billionen von Parametern eine 30-mal schnellere Echtzeit-LLM-Inferenzleistung erreicht. Diese Verbesserung wird durch eine neue Generation von Tensor-Recheneinheiten möglich, die neue Microscaling-Formate aufweisen, um eine hohe Genauigkeit und einen größeren Durchsatz zu erzielen. Darüber hinaus nutzt die GB200 NVL72 NVLink und Flüssigkeitskühlung, um ein einzelnes massives 72-GPU-Rack zu erschaffen, das Kommunikationsengpässe überwinden kann.

Training in großem Umfang

Die GB200 NVL72 umfasst eine schnellere Transformer-Engine der 2. Generation mit FP8-Präzision, die bei großen Sprachmodellen ein bemerkenswertes 4-mal schnelleres Training in großem Umfang ermöglicht. Dieser Durchbruch wird durch NVLink der 5. Generation ergänzt. Diese Funktion bietet eine GPU-zu-GPU-Verbindung mit 1,8 TB/s, InfiniBand-Netzwerktechnik und NVIDIA Magnum IO™-Software.

Energieeffiziente Infrastruktur

Flüssigkeitsgekühlte GB200 NVL72-Racks reduzieren den CO2-Fußabdruck sowie den Energieverbrauch des Rechenzentrums. Flüssigkeitskühlung erhöht die Rechendichte, reduziert die benötigte Stellfläche und unterstützt GPU-Kommunikation mit hoher Bandbreite und niedriger Latenz mithilfe von großen NVLink-Domänenarchitekturen. Im Vergleich zur luftgekühlten NVIDIA H100-Infrastruktur bietet die GB200 bei gleichem Energieverbrauch 25-mal mehr Leistung und reduziert gleichzeitig den Wasserbedarf.

Datenverarbeitung

Datenbanken spielen für Unternehmen eine entscheidende Rolle bei der Verarbeitung und Analyse großer Datenmengen. GB200 nutzt NVLink-C2C mit hoher Bandbreite und dedizierte Dekomprimierungs-Engines in der NVIDIA Blackwell-Architektur, um wichtige Datenbankabfragen um das 18-Fache zu beschleunigen (verglichen mit CPUs) und so 5-mal bessere Gesamtbetriebskosten zu erzielen.

Merkmale

Technologische Durchbrüche

Blackwell-Architektur

Die NVIDIA Blackwell-Architektur definiert die neue Ära im Bereich generative KI und und bietet bahnbrechende Fortschritte beim beschleunigten Computing mit beispielloser Leistung, Effizienz und Skalierbarkeit.

NVIDIA Grace-CPU

Der NVIDIA-Grace-CPU-Superchip ist ein bahnbrechender Prozessor, der für moderne Rechenzentren mit KI-, Cloud- und HPC-Anwendungen entwickelt wurde. Er bietet herausragende Leistung und Speicherbandbreite mit der zweifachen Energieeffizienz im Vergleich mit führenden modernen Serverprozessoren.

NVIDIA NVLink der fünften Generation

Die Erschließung des vollen Potenzials von Exascale-Computing und KI-Modellen mit Billionen von Parametern setzt eine schnelle, nahtlose Kommunikation zwischen allen Grafikprozessoren in einem Servercluster voraus. Die fünfte Generation von NVLink ist eine Scale-up-Verbindung, die beschleunigte Leistung für KI-Modelle mit Billionen und Aberbillionen von Parametern ermöglicht.

NVIDIA-Netzwerk

Das Netzwerk von Rechenzentren spielt eine entscheidende Rolle für die Fortschritte und Leistung von KI. Es dient als Rückgrat für ein verteiltes KI-Modelltraining und generative KI-Leistung.  NVIDIA Quantum-X800 InfiniBand, NVIDIA Spectrum™-X800 Ethernet und NVIDIA® BlueField®-3 DPUs ermöglichen eine effiziente Skalierbarkeit über Hunderte und Tausende von Blackwell-GPUs hinweg und sorgen so für eine optimale Anwendungsleistung.

KI-Fabrik für die neue industrielle Revolution

NVIDIA GB300 NVL72

Die NVIDIA GB300 NVL72 bietet 40-mal mehr KI-Inferenzleistung als Hopper-Plattformen, 40 TB schnellen Arbeitsspeicher und eine Integration der Netzwerkplattform mit NVIDIA ConnectX®-8 SuperNICs unter Einsatz von Quantum-X800 InfiniBand oder Spectrum™-X Ethernet. Blackwell Ultra sorgt für bahnbrechende Leistung bei den komplexesten Workloads – von agentenbasierten Systemen und Reasoning bis hin zu 30-mal schnellerer Echtzeit-Videogenerierung.

Technische Daten

GB200 NVL72 Technische Daten

  GB200 NVL72 GB200 Grace Blackwell Superchip
Konfiguration 36 Grace-CPU: 72 Blackwell-Grafikprozessoren 1 Grace-CPU: 2 Blackwell-Grafikprozessor
FP4 Tensor-Recheneinheit1 1.440 PFLOPS 40 PFLOPS
FP8/FP6 Tensor-Recheneinheit1 720 PFLOPS 20 PFLOPS
INT8-Tensor-Recheneinheit1 720 POPS 20 POPS
FP16/BF16 Tensor-Recheneinheit1 360 PFLOPS 10 PFLOPS
TF32 Tensor-Recheneinheit 180 PFLOPS 5 PFLOPS
FP32 5.760 TFLOPS 160 TFLOPS
FP64 2.880 TFLOPS 80 TFLOPS
FP64 Tensor-Recheneinheit 2.880 TFLOPS 80 TFLOPS
Grafikprozessorspeicher | Bandbreite Bis zu 13,4 TB HBM3e | 576 TB/s Bis zu 372 GB HBM3e | 16 TB/s
NVLink-Bandbreite 130 TB/s 3,6 TB/s
Anzahl der CPU-Recheneinheiten 2.592 Arm® Neoverse V2-Recheneinheiten 72 Arm® Neoverse V2-Recheneinheiten
CPU-Speicher | Bandbreite Bis zu 17 TB LPDDR5X | Bis zu 18,4 TB/s Bis zu 480 LPDDR5X | Bis zu 512 GB/s

Jetzt starten

Immer aktuell

Melden Sie sich an, um benachrichtigt zu werden, wenn NVIDIA Blackwell verfügbar wird.