Tensor-Recheneinheiten ermöglichen Berechnungen mit gemischter Genauigkeit und passen Berechnungen dynamisch an, um den Durchsatz zu beschleunigen und gleichzeitig die Genauigkeit zu erhalten und verbesserte Sicherheit zu bieten. Die neueste Generation von Tensor-Recheneinheiten ist schneller denn je bei einer Vielzahl von KI- und High-Performance-Computing-Aufgaben (HPC). Vom Training von KI-Modellen mit Billionen Parametern bis hin zur Erzielung bahnbrechender Inferenzleistung beschleunigen NVIDIA Tensor-Recheneinheiten alle Workloads für moderne KI-Fabriken.
Mit der NVIDIA Rubin-Plattform werden verbesserte Tensor-Recheneinheiten der fünften Generation eingeführt. Sie wurden für die Beschleunigung moderner KI-Fabriken entwickelt und optimieren die Unterstützung von 4-Bit-NVFP4- und FP8-Arithmetik mit geringer Genauigkeit. Durch die enge Integration dieser Tensor-Recheneinheiten und erweiterter Einheiten für spezielle Funktionen innerhalb der Streaming-Multiprozessoren von NVIDIA Rubin beschleunigt die Plattform Aufmerksamkeitsmechanismen und dünnbesetzte Rechenpfade erheblich, wodurch sowohl die arithmetische Dichte als auch die Energieeffizienz verbessert werden, ohne die Genauigkeit der Modelle zu beeinträchtigen.
Die NVIDIA Rubin-GPU unterstützt die nächste Generation der agentischen KI und verfügt über eine 50-PetaFLOPS-Transformer-Engine, die Tensor-Recheneinheiten der fünften Generation und NVFP4-Genauigkeit nutzt, um die Inferenzeffizienz zu maximieren. Dieser architektonische Sprung skaliert nahtlos auf 3.600 PFLOPS für NVFP4-Inferenz im NVIDIA Vera-Rubin-NVL72-System und bietet den enormen Durchsatz, der für Echtzeit-Reasoning-Modelle unerlässlich ist.
NVIDIA Blackwell- und Rubin-Architekturen können FP32- und FP64-Matrixoperationen emulieren, indem sie Eingabewerte zerlegen und Tensor-Recheneinheiten mit hohem Durchsatz und geringerer Genauigkeit nutzen. Dieses Konzept kann die Leistung und Energieeffizienz erheblich steigern und gleichzeitig die native IEEE754-Genauigkeit erreichen oder sogar übertreffen. Durch die Verwendung komplexer, softwaregestützter Algorithmen und Festkommaoperationen bietet die Emulation eine kontrollierte, hocheffiziente Alternative zu herkömmlichen Hardware-Ausführungsmethoden, die mit höherer Genauigkeit arbeiten.
Die NVIDIA Blackwell-Architektur bietet eine 30-fache Beschleunigung im Vergleich zur vorherigen NVIDIA-Hopper™-Generation für massive Modelle wie GPT-MoE-1.8T. Dieser Leistungsschub wird mit der fünften Generation von Tensor-Recheneinheiten ermöglicht. NVIDIA-Blackwell-Tensor-Recheneinheiten fügen neue Genauigkeitsstufen hinzu, darunter von der Community definierte Microscaling-Formate, was eine bessere Genauigkeit und einen einfacheren Austausch für höhere Genauigkeiten ermöglicht.
Da generative KI-Modelle immer größer und komplexer werden, ist es entscheidend, die Trainings- und Inferenzleistung zu verbessern. Um diese Rechenanforderungen zu erfüllen, unterstützen NVIDIA-Blackwell-Tensor-Recheneinheiten neue Quantisierungsformate und Genauigkeiten, einschließlich von der Community definierter Microscaling-Formate.
Die Transformer-Engine der zweiten Generation nutzt eine angepasste Technik mit NVIDIA-Blackwell-Tensor-Recheneinheiten in Kombination mit Innovationen des NVIDIA® TensorRT™-LLM- und NeMo™-Frameworks, um Inferenz und Training für große Sprachmodelle (LLMs) und MoE-Modelle (Mixture-of-Experts) zu beschleunigen. Die Transformer-Engine basiert auf Tensor Cores mit FP4-Präzision, die die Leistung und Effizienz verdoppeln und gleichzeitig die hohe Genauigkeit für aktuelle und zukünftige MoE-Modelle beibehalten.
Die Transformer-Engine soll die heutigen LLMs mit Echtzeit-Leistungseigenschaften einem breiten Nutzerspektrum verfügbar machen. Unternehmen können Geschäftsprozesse optimieren, indem sie hochmoderne generative KI-Modelle zu bezahlbaren Preisen bereitstellen.
Tensor-Recheneinheiten sind wesentliche Bausteine der vollständigen NVIDIA-Rechenzentrumslösung, die Hardware, Netzwerktechnik, Software, Bibliotheken sowie optimierte KI-Modelle und Anwendungen aus dem NVIDIA NGC™-Katalog umfasst. Die leistungsstärkste End-to-End-KI- und HPC-Plattform ermöglicht es Forschern, realistische Ergebnisse zu liefern und Lösungen nach Maß für die Produktion bereitzustellen.
| NVIDIA Rubin | NVIDIA Blackwell | |
|---|---|---|
| Unterstützte Precisions für Tensor-Recheneinheiten | NVFP4, FP64, TF32, BF16, FP16, FP8/FP6, INT8, | NVFP4, FP64, TF32, BF16, FP16, FP8/FP6, INT8, |
| Unterstützte Precisions für CUDA®-Recheneinheiten | FP64, FP32, INT32, FP16, BF16 | FP64, FP32, FP16, BF16 |
* Vorläufige Spezifikationen, Änderungen möglich
Erfahren Sie mehr über die NVIDIA Vera-Rubin-Plattform.