NVIDIA Vera Rubin NVL72

Den nächsten Meilenstein der agentischen KI gestalten.

Überblick

Sieben neue Chips, ein KI-Supercomputer

NVIDIA Vera Rubin NVL72 vereint bahnbrechende Technologien von NVIDIA – 72 Rubin-GPUs, 36 Vera-CPUs, NVIDIA ConnectX™-9 SuperNICs und BlueField™-4-DPUs. Die Lösung skaliert Intelligenz auf einer Rack-Scale-Plattform mit dem NVIDIA NVLink™ 6-Switch vertikal und mit NVIDIA Quantum-X800 InfiniBand und Spectrum-X™-Ethernet horizontal, um die industrielle KI-Revolution in großem Maßstab voranzutreiben. Bei der Bereitstellung mit NVIDIA Groq 3 LPX-Racks liefert Vera Rubin NVL72 eine neue Klasse der Inferenzleistung für Modelle mit Billionen von Parametern und Kontexte mit Millionen von Token.

Vera Rubin NVL72 baut auf dem Rack-Design der dritten Generation von NVIDIA MGX™ NVL72 auf und ermöglicht einen nahtlosen Übergang von Vorgängergenerationen. Im Vergleich zu NVIDIA Blackwell bietet diese Lösung KI-Training mit einem Viertel der GPUs und KI-Inferenz zu einem Zehntel der Kosten pro Million Token. Mit kabellosen modularen Tray-Designs und der Unterstützung von über 80 MGX-Ökosystempartnern bietet der KI-Supercomputer im Rack-Maßstab erstklassige Leistung bei schneller Bereitstellung.

NVIDIA Vera Rubin geht in die Serienproduktion, um Fabriken für agentische KI weltweit zu unterstützen

NVIDIA Vera Rubin geht derzeit in die Serienproduktion – Taiwans führende Serverhersteller und weltweit führende Unternehmen der Lieferkette produzieren in großem Maßstab und liefern auf Vera Rubin basierte Systeme aus, die KI-Labore, Cloud-Anbieter und Hyperscaler dabei unterstützen, die Intelligenz von morgen zu entwickeln.

Pressemitteilung lesen

NVIDIA Vera Rubin eröffnet neue Horizonte für agentische KI

Die NVIDIA Plattform Vera Rubin enthält sieben neue Chips, die sich bereits in der Produktion befinden und dazu dienen, die weltweit größten KI-Fabriken zu skalieren.

Pressemitteilung lesen

Leistung

Enorme Effizienzgewinne bei KI-Inferenz und Training

Änderungen der LLM-Inferenzleistung vorbehalten. Kosten pro 1 Million Token basierend auf dem Kimi-K2-Thinking-Modell unter Verwendung von 32K/8K ISL/OSL im Vergleich von NVIDIA GB200 NVL72 und NVIDIA Vera Rubin NVL72.

Senkung der Inferenzkosten

NVIDIA Vera Rubin NVL72 bietet ein Zehntel der Kosten pro Million Token im Vergleich zu NVIDIA GB200 NVL72 für hochinteraktive agentische KI mit Deep Reasoning.

Maximierung des Durchsatzes der KI-Fabrik

NVIDIA Vera Rubin NVL72 bietet bis zu 10-mal mehr Token pro Megawatt als NVIDIA GB200 NVL72 und ermöglicht so die Skalierung der Intelligenz bei gleichbleibendem Energiebedarf.

Änderungen der LLM-Inferenzleistung vorbehalten. Token pro Sekunde pro MW basierend auf dem Kimi-K2 Thinking-Modell unter Verwendung von 32K/8K ISL/OSL beim Vergleich von NVIDIA GB200 NVL72 und NVIDIA Vera Rubin NVL72.

Die voraussichtliche Leistung kann Änderungen unterliegen. Anzahl der GPUs auf Basis eines 10T-MoE-Modells, das in einem festen Zeitrahmen von einem Monat mit 100T Token trainiert wurde, im Vergleich von NVIDIA GB200 NVL72 und NVIDIA Vera Rubin NVL72.

Steigerung der Trainingseffizienz

NVIDIA Vera Rubin NVL72 trainiert MoE-Modelle (Mixture-of-Experts) mit einem Viertel der Anzahl der GPUs im Vergleich zu NVIDIA GB200 NVL72.

35-mal höherer Durchsatz für Modelle mit Billionen Parametern

Agentische Systeme verbrauchen bis zu 15-mal mehr Token als herkömmliche KI-Anwendungen. KI-Fabriken müssen ein hohes Token-Volumen und umfangreiche Kontextfenster mit geringer Latenz und effizienter Wirtschaftlichkeit gewährleisten. In Kombination mit LPX bietet Vera Rubin NVL72 einen bis zu 35-mal höheren Durchsatz pro Megawatt für Modelle mit Billionen Parametern.

Die voraussichtliche Leistung kann Änderungen unterliegen. Kostenlose Stufe (0 $): Qwen-3-Modell mit 235 Milliarden Parametern und 32.000 im KV-Cache gespeicherten Token. Medium-Stufe (3 $): Kimi K2.5-Modell mit 1 Billion Parametern und 128.000 im KV-Cache gespeicherten Token. Hohe Stufe (6 $): GPT-MoE-Modell mit 2 Billionen Parametern und 128.000 im KV-Cache gespeicherten Token. Premium-Stufe (45 $) und Ultra-Stufe (150 $): GPT-MoE Modell mit 2 Billionen Parametern und 400.000 im KV-Cache gespeicherten Token.

Vorantreiben der Ära der KI-Agenten

Die Vera Rubin-Plattform

Die Vera Rubin-Plattform eröffnet neue Horizonte der agentischen KI mit fünf Racks zur Skalierung der weltweiten KI-Fabriken – NVIDIA Vera Rubin NVL72, NVIDIA Vera CPU, NVIDIA Groq 3 LPX, NVIDIA Vera BlueField-4 STX und NVIDIA Spectrum-6 SPX Ethernet. Die Racks sind darauf ausgelegt, gemeinsam als ein einziger leistungsstarker KI-Supercomputer zu arbeiten und unterstützen alle Phasen der KI – vom Pre-Training in großem Maßstab über das Nachtrainieren und die Skalierung in der Testphase bis hin zu agentischer Inferenz in Echtzeit.

Mehr erfahren

NVIDIA Rubin GPU

Rubin-GPUs mit HBM4 und 50 PF NVFP4 Transformer-Engine, konzipiert für die nächste Generation der KI.

Mehr erfahren

NVIDIA Vera CPU

Vera-CPUs wurden speziell für Datenbewegungen und agentisches Reasoning entwickelt und bieten energieeffiziente Rechenleistung mit hoher Bandbreite und deterministischer Leistung.

Mehr erfahren

NVIDIA NVLink 6 Switch

NVLink 6 Switches bieten eine All-to-all-Bandbreite mit vertikaler Skalierung von 3,6 Terabyte pro Sekunde (TB/s) pro GPU und ermöglichen so eine Hochgeschwindigkeits-GPU-zu-GPU-Kommunikation für KI.

Mehr erfahren

NVIDIA ConnectX-9 SuperNIC

ConnectX-9 SuperNICs bieten eine Bandbreite von 1,6 Terabit pro Sekunde (Tb/s) pro GPU mit programmierbarem Remote Direct-Memory Access (RDMA) für GPU-direktes Netzwerk mit geringer Latenz im großen Maßstab.

Mehr erfahren

NVIDIA BlueField-4 DPU

BlueField-4-DPUs beschleunigen die Datenverarbeitung über Datenspeichern, Netzwerken, Cybersicherheit und elastische Skalierung in KI-Fabriken hinweg.

Mehr erfahren

NVIDIA Spectrum-X Ethernet Co-Packaged Optics

Spectrum-X Ethernet Scale-out-Switches mit integrierter Silizium-Photonik bieten eine fünffach bessere Energieeffizienz, eine zehnfach höhere Netzwerkausfallsicherheit und eine bis zu fünffach höhere Betriebszeit im Vergleich zu herkömmlichen Netzwerken mit steckbaren Transceivern.

Mehr erfahren

NVIDIA Groq 3 LPU

Dies ist der Inferenzbeschleuniger für NVIDIA Vera Rubin NVL72, der für die Anforderungen agentischer Systeme an eine geringe Latenz und große Kontexte entwickelt wurde. Das NVIDIA Groq 3 LPX Rack verfügt über 256 LPUs mit 128 GB SRAM, 40 PB/s Speicherbandbreite und 640 TB/s Scale-up-Bandbreite pro Rack. Es wurde gemeinsam mit Vera Rubin NVL72 entwickelt und bietet die 35-fache Verarbeitungsleistung pro Watt und bis zu 10-mal mehr Umsatzmöglichkeiten für Modelle mit Billionen von Parametern im Vergleich zu Blackwell.

Mehr erfahren

NVIDIA Vera Rubin NVL4

NVIDIA Vera Rubin NVL4 bietet revolutionäre Leistung durch vier NVIDIA Rubin-GPUs, die durch eine NVLink-Brücke der zweiten Generation mit NVIDIA NVLink der sechsten Generation miteinander verbunden sind, kombiniert mit zwei NVIDIA Vera CPUs über NVLink-C2C. Die Lösung ist mit flüssigkeitsgekühlten modularen NVIDIA MGX™-Servern kompatibel und bietet im Vergleich zu Grace Hopper bis zu 4-mal mehr Leistung für wissenschaftliche Computing-Simulationen, 6-mal mehr für das KI-für-Wissenschaft-Training und 8-mal mehr für KI-für-Wissenschaft-Inferenz.

Mehr erfahren

Spezifikationen¹

NVIDIA Vera Rubin NVL72 – Spezifikationen

	NVIDIA Vera Rubin NVL72	NVIDIA Vera Rubin Superchip	NVIDIA Rubin GPU
Konfiguration:	72 NVIDIA Rubin GPUs \| 36 NVIDIA Vera CPUs	2 Rubin GPUs \| 1 Vera CPU	1 Rubin GPU
NVFP4 Inferenz	3.600 PFLOPS	100 PFLOPS	50 PFLOPS
NVFP4² Training	2.520 PFLOPS	70 PFLOPS	35 PFLOPS
FP8/FP6² Training	1.260 PFLOPS	35 PFLOPS	17,5 PFLOPS
INT8² Dense	18 POPS	500 TOPS	250 TOPS
FP16/BF16² Dense	288 PFLOPS	8 PFLOPS	4 PFLOPS
TF32² Dense	144 PFLOPS	4 PFLOPS	2 PFLOPS
FP32	9.360 TFLOPS	260 TFLOPS	130 TFLOPS
FP64	2.400 TFLOPS	67 TFLOPS	33 TFLOPS
FP32 SGEMM³	28.800 TFLOPS	800 TFLOPS	400 TFLOPS
FP64 DGEMM³	14.400 TFLOPS	400 TFLOPS	200 TFLOPS
GPU-Speicher \| Bandbreite	20,7 TB HBM4 \| 1.580 TB/s	576 GB HBM4 \| 44 TB/s	288 GB HBM4 \| 22 TB/s
NVIDIA NVLink	Sechste Generation
Bandbreite von NVLink	260 TB/s (NVLink 6 Switch-Bandbreite)	7,2 TB/s	3,6 TB/s
NVLink-C2C Bandbreite	65 TB/s	1,8 TB/s	–
Anzahl der CPU-Recheneinheiten	3.168 benutzerdefinierte NVIDIA Olympus-Kerne (Arm®-kompatibel)	88 benutzerdefinierte NVIDIA Olympus-Kerne (Arm®-kompatibel)	–
CPU-Speicher	54 TB LPDDR5X	1,5 TB LPDDR5X	–
Netzwerkbandbreite (Scale-out)	28,8 TB/s	0,8 TB/s	0,4 TB/s
NVIDIA + HBM4-Chips insgesamt	1.296	30	12

1. Vorläufige Informationen – alle Werte sind als "bis zu" zu verstehen und können sich ändern
2. Dichte Spezifikation
3. Spitzenleistung mit auf Tensor Core basierenden Emulationsalgorithmen

Lesen Sie das NVIDIA Vera Rubin Datenblatt

Erste Schritte

Bleiben Sie auf dem Laufenden über NVIDIA News

Melden Sie sich an, um aktuelle Nachrichten, Updates und mehr von NVIDIA zu erhalten.

Bleiben Sie auf dem Laufenden