Die nächste Generation der KI gestalten.
Überblick
Die NVIDIA Vera Rubin-Plattform wurde für das Zeitalter der agentischen KI und des logischen Schlussfolgerns entwickelt und ist darauf ausgelegt, mehrstufige Problemlösungsprozesse und umfangreiche Workflows mit langen Kontexten im großen Maßstab zu bewältigen. Durch die Beseitigung kritischer Engpässe in der Kommunikation und Speicherbewegung beschleunigt die Plattform die Inferenz, um mehr Token pro Watt und niedrigere Kosten pro Token im Vergleich zur Generation der NVIDIA Blackwell-Architektur zu liefern.
Die Rubin-GPU verfügt über eine neue Transformer-Engine (TE) mit hardwarebeschleunigter adaptiver Komprimierung, um die NVFP4-Leistung zu steigern und gleichzeitig die Genauigkeit zu erhalten. Dies ermöglicht bis zu 50 PetaFLOPS bei NVFP4-Inferenz. Die Transformer-Engine ist vollständig kompatibel mit NVIDIA Blackwell und sorgt für nahtlose Upgrades, sodass zuvor optimierte Codes mühelos auf die Vera Rubin-Plattform übergehen.
Die dritte Generation von NVIDIA Confidential Computing erweitert die Sicherheit mit NVIDIA Vera Rubin NVL72 auf Full-Rack-Skalierung. Diese Plattform schafft eine einheitliche vertrauenswürdige Ausführungsumgebung über alle 36 NVIDIA Vera-CPUs, 72 NVIDIA Rubin-GPUs und die NVIDIA NVLink™-Fabric, die sie nahtlos miteinander verbindet. Die Plattform gewährleistet die Datensicherheit über CPU-, GPU- und NVLink-Domänen hinweg. Mit Attestation-Services für den kryptografischen Compliance-Nachweis kombiniert sie enorme Skalierbarkeit mit kompromisslosem Schutz, um die weltweit größten proprietären Modelle, Trainingsdaten und Inferenz-Workloads zu schützen.
NVLink der sechsten Generation bietet einen großen Sprung für das High-Speed-GPU-Interconnect-Fabric von NVIDIA, das 72 NVIDIA Rubin-GPUs in einer einzigen Leistungsdomäne vereint. Rubin GPU verdoppelt die Leistung von NVIDIA Blackwell und bietet eine Bandbreite von 3,6 Terabyte pro Sekunde (TB/s) pro GPU und eine Konnektivität von 260 TB/s bei geringer Latenz, um eine schnellere Kommunikation zu ermöglichen. In Kombination mit dem NVIDIA® Scalable Hierarchical Aggregation and Reduction Protocol (SHARP)™, das die Netzwerkauslastung bei kollektiven Operationen um bis zu 50 Prozent reduziert, beschleunigt diese Interconnect-Lösung der nächsten Generation das Training und die Inferenz für die weltweit größten Modelle – in großem Maßstab und ohne Kompromisse.
Die NVIDIA Vera Rubin-Plattform bietet Ausfallsicherheit im Rack-Maßstab mit fortschrittlichen Zuverlässigkeitsfunktionen. NVIDIA Rubin-GPUs verfügen über eine spezielle RAS-Engine der zweiten Generation für proaktive Wartung und Echtzeit-Integritätsprüfungen ohne Ausfallzeiten. NVIDIA Vera-CPUs bieten eine verbesserte Wartungsfreundlichkeit mit Small-Outline Compression-Attached Memory Modules (SOCAMM) LPDDR5X und systeminternen Tests für die CPU-Kerne. Das Rack bietet modulare, kabelfreie Tray-Designs für eine 18-mal schnellere Montage und Wartungsfreundlichkeit im Vergleich zu NVIDIA Blackwell, kombiniert mit intelligenter Ausfallsicherheit und softwaredefiniertem NVLink-Routing, die einen kontinuierlichen Betrieb sicherstellen und den Wartungsaufwand reduzieren.
Die NVIDIA Vera-CPU wurde für Datenbewegungen und agentisches Reasoning in beschleunigten Systemen mit vollständigem Support für Confidential Computing entwickelt. Es lässt sich nahtlos mit NVIDIA-GPUs kombinieren oder unabhängig für Analyse-, Cloud-, Orchestrierungs-, Datenspeicher- und High-Performance-Computing (HPC)-Workloads einsetzen. Vera kombiniert 88 von NVIDIA entwickelte Kerne, bis zu 1,2 TB/s LPDDR5X Speicherbandbreite und NVIDIA Scalable Coherency Fabric für vorhersehbare, energieeffiziente Leistung für daten- und speicherintensive Workloads mit voller Arm-Kompatibilität. Die integrierte NVIDIA NVLink-C2C-Konnektivität ermöglicht einen kohärenten Speicherzugriff mit hoher Bandbreite zwischen CPU und GPU, um die Auslastung und Effizienz des Systems zu maximieren.
Lesen Sie diesen technischen Fachartikel, um zu erfahren, wie NVIDIA Vera Rubin das Rechenzentrum und nicht den Chip als Recheneinheit behandelt und so eine neue Grundlage für die effiziente, sichere und vorhersehbare Erzeugung von Intelligenz in großem Maßstab schafft.