NVIDIA Blackwell Architecture

Der Motor der neuen industriellen Revolution.

Über die Grenzen von beschleunigtem Computing und generativer AI hinaus

Erfahren Sie mehr über die bahnbrechenden Fortschritte, die die NVIDIA Blackwell-Architektur für generative AI und beschleunigtes Computing bietet. Basierend auf Generationen von NVIDIA-Technologien definiert Blackwell das nächste Kapitel im Bereich generative AI mit beispielloser Leistung, Effizienz und Skalierbarkeit.

Einblicke in technologische Durchbrüche

Eine neue Klasse von AI-Superchips

Grafikprozessoren mit Blackwell-Architektur umfassen 208 Milliarden Transistoren und werden in einem speziell entwickelten TSMC-4NP-Prozess hergestellt. Alle Blackwell-Produkte verfügen über zwei einzelne Dies, die durch eine Chip-zu-Chip-Verbindung mit 10 Terabyte pro Sekunde (TB/s) in einem einheitlichen Grafikprozessor verbunden sind.

Transformer-Engine der zweiten Generation

Die Transformer-Engine der zweiten Generation nutzt die maßgeschneiderte Blackwell Tensor Core-Technologie in Kombination mit NVIDIA® TensorRT™-LLMs und innovativen NeMo™-Frameworks, um die Inferenz und das Training für große Sprachmodelle (LLMs) und MoE-Modelle (Mixture of Experts) zu beschleunigen.

Zur Beschleunigung der Inferenz von MoE-Modellen bieten Blackwell Tensor Cores neue Präzisionen, einschließlich neuer von der Community definierter Microscaling-Formate. Das Ergebnis: höhere Genauigkeit und ein einfacherer Austausch für größerer Präzision. Die Blackwell Transformer Engine nutzt feinkörnige Skalierungstechniken – als Mikrotensor-Skalierung bezeichnet –, um die Leistung und Genauigkeit zu optimieren und eine 4-Bit-Gleitkomma(FP4)-AI zu ermöglichen. Dadurch werden die Leistung und Größe der Modelle der nächsten Generation, die der Arbeitsspeicher unterstützen kann, verdoppelt. Dabei bleibt die hohe Genauigkeit bestehen.

Sichere KI

Blackwell umfasst NVIDIA Confidential Computing, das mit starker hardwarebasierter Sicherheit vertrauliche Daten und AI-Modelle vor unbefugtem Zugriff schützt. Blackwell ist der erste TEE-I/O-fähige Grafikprozessor der Branche und bietet gleichzeitig die leistungsfähigste Lösung für vertrauliche Berechnungen mit TEE-I/O-fähigen Hosts und Inline-Schutz über NVIDIA® NVLink®. Blackwell Confidential Computing sorgt für nahezu identische Durchsatzleistung im Vergleich zu unverschlüsselten Modi. Unternehmen können jetzt selbst die größten Modelle auf effektive Weise schützen, das geistige Eigentum der AI schützen und vertrauliches AI-Training, Inferenz und Federated Learning sicher ermöglichen.

NVLink und NVLink-Switch

Um das volle Potenzial von Exascale-Computing und AI-Modellen mit Billionen Parametern auszuschöpfen, ist eine schnelle, nahtlose Kommunikation zwischen allen Grafikprozessoren innerhalb eines Server-Clusters erforderlich. Die fünfte Generation von NVIDIA® NVLink® ist eine Scale-up-Verbindung für bis zu 576 Grafikprozessoren, die beschleunigte Leistung für AI-Modelle mit Billionen oder mehreren Billionen Parametern bietet.

Der NVIDIA NVLink-Switch-Chip ermöglicht 130 TB/s GPU-Bandbreite in einer NVLink-Domäne mit 72 GPUs (NVL72) und bietet viermal mehr Bandbreiteneffizienz mit FP8-Unterstützung von NVIDIA Scalable Hierarchical Aggregation and Reduction Protocol (SHARP)™. Der NVIDIA NVLink-Switch-Chip unterstützt Cluster mit mehr als einem einzelnen Server bei denselben beeindruckenden Verbindungsgeschwindigkeiten von 1,8 TB/s. Multi-Server-Cluster mit NVLink skalieren die GPU-Kommunikation angepasst an die zunehmende Rechenleistung, sodass NVL72 den 9-fachen GPU-Durchsatz unterstützen kann als ein einzelnes System mit acht GPUs.

Dekomprimierungs-Engine

Bei Datenanalysen und Datenbank-Workflows wurden die Berechnungen traditionell auf CPUs durchgeführt. Beschleunigte Datenwissenschaft kann die Leistung von durchgängigen Analysen steigern, die Wertschöpfung beschleunigen und gleichzeitig die Kosten senken. Datenbanken, einschließlich Apache Spark, spielen im Bereich Datenanalyse eine entscheidende Rolle bei der Verarbeitung und Analyse großer Datenmengen.

Blackwells Dekomprimierungs-Engine und die Möglichkeit, auf riesige Mengen an Speicher der NVIDIA Grace™-CPU über eine High-Speed-Verbindung von 900 Gigabyte pro Sekunde (GB/s) bidirektionaler Bandbreite zuzugreifen, beschleunigen die gesamte Pipeline von Datenbankabfragen für höchste Leistung bei Datenanalysen und Datenwissenschaft mit Unterstützung der neuesten Komprimierungsformate wie LZ4, Snappy und Deflate.

RAS-Engine für Zuverlässigkeit, Verfügbarkeit und Wartungsfreundlichkeit

Blackwell bietet intelligente Ausfallsicherheit mit einer dedizierten Engine für Zuverlässigkeit, Verfügbarkeit und Wartungsfreundlichkeit (Reliability, Availability, and Serviceability, RAS), um potenzielle Fehler frühzeitig zu identifizieren und Ausfallzeiten zu minimieren. Die AI-gestützten Funktionen für vorausschauendes Management von NVIDIA überwachen kontinuierlich den allgemeinen Zustand über Tausende von Datenpunkten von Hardware und Software, um die Ursachen für Ausfallzeiten und fehlende Effizienz vorherzusagen und zu eliminieren. Dadurch entsteht eine intelligente Ausfallsicherheit, die Zeit, Energie und Rechenkosten spart.

Die RAS-Engine von NVIDIA bietet detaillierte Diagnoseinformationen, mit denen Problembereiche identifiziert und Wartungsarbeiten geplant werden können. Die RAS-Engine reduziert die Durchlaufzeit, indem sie die Ursachen von Problemen schnell lokalisiert, und minimiert Ausfallzeiten durch eine effektive Problembehebung.

Echtzeitmodelle mit Billionen Parametern – der NVIDIA GB200 NVL72 macht es möglich

Der NVIDIA GB200 NVL72 verbindet 36 GB200 Grace Blackwell-Superchips mit 36 Grace-CPUs und 72 Blackwell-GPUs in einem Rack-Maßstab. Bei dem GB200 NVL72 handelt es sich um eine Lösung mit Flüssigkeitskühlung und einer NVLink-Domäne mit 72 Grafikprozessoren, die als einzelner riesiger Grafikprozessor funktioniert und 30-mal schnellere Echtzeit-Inferenz für große Sprachmodelle (LLMs) mit Billionen Parametern bietet.

NVIDIA Blackwell – Technische Übersicht

Hier erfahren Sie mehr über die Architektur, die hinter dem neuen Zeitalter von generativer KI und beschleunigtem Computing steht.