Die nächste Generation der KI gestalten.
Überblick
Die NVIDIA Rubin-Plattform wurde für das Zeitalter der agentischen KI und des logischen Schlussfolgerns entwickelt und ist darauf ausgelegt, mehrstufige Problemlösungsprozesse und umfangreiche Workflows mit langen Kontexten im großen Maßstab zu bewältigen. Durch die Beseitigung kritischer Engpässe bei der Kommunikation und Speicherbewegung beschleunigt die Rubin-Plattform die Inferenz – sie liefert mehr Token pro Watt und senkt die Kosten pro Token im Vergleich zur NVIDIA Blackwell-Generation.
Die Rubin-Plattform verfügt über eine neue Transformer-Engine mit hardwarebeschleunigter adaptiver Komprimierung, um die NVFP4-Leistung bei gleichbleibender Genauigkeit zu steigern und eine NVFP4-Inferenz von bis zu 50 PetaFLOPS zu ermöglichen. Die Transformer-Engine ist vollständig kompatibel mit NVIDIA Blackwell und sorgt für nahtlose Upgrades, sodass zuvor optimierte Codes mühelos auf die Rubin-Plattform übergehen können.
Die dritte Generation von NVIDIA Confidential Computing erweitert die Sicherheit mit NVIDIA Vera Rubin NVL72 auf Full-Rack-Skalierung. Diese Plattform schafft eine einheitliche vertrauenswürdige Ausführungsumgebung über alle 36 NVIDIA Vera-CPUs, 72 NVIDIA Rubin-GPUs und die NVIDIA NVLink™-Fabric, die sie nahtlos miteinander verbindet. Die Plattform gewährleistet die Datensicherheit über CPU-, GPU- und NVLink-Domänen hinweg. Mit Attestation-Services für den kryptografischen Compliance-Nachweis kombiniert sie enorme Skalierbarkeit mit kompromisslosem Schutz, um die weltweit größten proprietären Modelle, Trainingsdaten und Inferenz-Workloads zu schützen.
NVLink der sechsten Generation bietet einen großen Sprung für das High-Speed-GPU-Interconnect-Fabric von NVIDIA, das 72 NVIDIA Rubin-GPUs in einer einzigen Leistungsdomäne vereint. Rubin verdoppelt die Leistung von NVIDIA Blackwell und bietet eine Bandbreite von 3,6 Terabyte pro Sekunde (TB/s) pro GPU und eine Konnektivität von 260 TB/s bei geringer Latenz, um eine schnellere Kommunikation zu ermöglichen. In Kombination mit dem NVIDIA® Scalable Hierarchical Aggregation and Reduction Protocol (SHARP)™, das die Netzwerkauslastung bei kollektiven Operationen um bis zu 50 Prozent reduziert, beschleunigt diese Interconnect-Lösung der nächsten Generation das Training und die Inferenz für die weltweit größten Modelle – in großem Maßstab und ohne Kompromisse.
Die NVIDIA Rubin-Plattform bietet Ausfallsicherheit im Rack-Maßstab mit fortschrittlichen Zuverlässigkeitsfunktionen. NVIDIA Rubin-GPUs verfügen über eine spezielle RAS-Engine der zweiten Generation für proaktive Wartung und Echtzeit-Integritätsprüfungen ohne Ausfallzeiten, während NVIDIA Vera-CPUs mit SOCAMM LPDDR5X und In-System-Tests für die CPU-Kerne eine verbesserte Wartungsfreundlichkeit bieten. Das Rack bietet modulare, kabelfreie Tray-Designs für eine 18-mal schnellere Montage und Wartungsfreundlichkeit im Vergleich zu NVIDIA Blackwell, kombiniert mit intelligenter Ausfallsicherheit und softwaredefiniertem NVLink-Routing, die einen kontinuierlichen Betrieb sicherstellen und den Wartungsaufwand reduzieren.
Die NVIDIA Vera-CPU wurde für Datenbewegungen und agentisches Reasoning in beschleunigten Systemen mit vollständigem Support für Confidential Computing entwickelt. Es lässt sich nahtlos mit NVIDIA-GPUs kombinieren oder unabhängig für Analyse-, Cloud-, Orchestrierungs-, Datenspeicher- und High-Performance-Computing (HPC)-Workloads einsetzen. Vera kombiniert 88 von NVIDIA entwickelte Kerne, eine LPDDR5X-Speicherbandbreite von bis zu 1,2 TB/s und NVIDIA Scalable Coherency Fabric, um vorhersehbare, energieeffiziente Leistung für daten- und speicherintensive Workloads mit vollständiger Arm®-Kompatibilität zu bieten. Die integrierte NVLink-C2C-Konnektivität ermöglicht einen kohärenten Speicherzugriff mit hoher Bandbreite zwischen CPU und GPU, um die Auslastung und Effizienz des Systems zu maximieren.
Lesen Sie diesen technischen Fachartikel, um zu erfahren, wie NVIDIA Vera Rubin das Rechenzentrum und nicht den Chip als Recheneinheit behandelt und so eine neue Grundlage für die effiziente, sichere und vorhersehbare Erzeugung von Intelligenz in großem Maßstab schafft.