NVIDIA Tensor-Recheneinheiten

Beispiellose Beschleunigung für agentische KI.

Tensor-Recheneinheiten ermöglichen Berechnungen mit gemischter Genauigkeit und passen Berechnungen dynamisch an, um den Durchsatz zu beschleunigen und gleichzeitig die Genauigkeit zu erhalten und verbesserte Sicherheit zu bieten. Die neueste Generation von Tensor-Recheneinheiten ist schneller denn je bei einer Vielzahl von KI- und High-Performance-Computing-Aufgaben (HPC). Vom Training von KI-Modellen mit Billionen Parametern bis hin zur Erzielung bahnbrechender Inferenzleistung beschleunigen NVIDIA Tensor-Recheneinheiten alle Workloads für moderne KI-Fabriken.

Revolutionäres KI-Training

Das Trainieren generativer KI-Modelle mit mehreren Billionen Parametern in 16-Bit-Genauigkeit kann Monate dauern. NVIDIA Tensor-Recheneinheiten arbeiten mit NVFP4, einem bahnbrechenden Format, das die Geschwindigkeit und Effizienz des 4-Bit-Formats mit der Genauigkeit von 16-Bit bietet. NVFP4 wird von der Transformer Engine unterstützt und nutzt die Skalierung von Mikroblöcken, um den Durchsatz erheblich zu steigern und den Speicherbedarf zu reduzieren. Mit nativer Framework-Unterstützung über CUDA-X™-Bibliotheken verkürzt diese Innovation die Zeit vom Training bis zur Konvergenz für die nächste Generation von Frontier-Modellen.

Bahnbrechende Inferenz

Das Erreichen einer geringen Latenz bei hohem Durchsatz bei gleichzeitiger Maximierung der Auslastung ist entscheidend für eine zuverlässige Inferenz-Implementierung. Die NVIDIA Rubin-Plattform verfügt über eine verbesserte Transformer-Engine, die die NVFP4-Leistung mit Tensor-Recheneinheiten der fünften Generation steigert. Gleichzeitig bleibt die Genauigkeit erhalten und ermöglicht bis zu 50 PetaFLOPS (PFLOPS) bei NVFP4-Inferenz. Die Transformer-Engine ist vollständig kompatibel mit NVIDIA Blackwell und sichert dadurch nahtlose Upgrades, sodass zuvor optimierte Codes mühelos auf NVIDIA Rubin übertragen werden können.

Tensor-Recheneinheiten haben es NVIDIA ermöglicht, branchenweite MLPerf-Benchmarks für Inferenz zu gewinnen.

Advanced HPC

HPC ist eine Säule der modernen Wissenschaft. Um Entdeckungen der nächsten Generation zu ermöglichen, nutzen Wissenschaftler Simulationen, um komplexe Moleküle für die Medikamentenentwicklung besser zu verstehen, Physik, um potenzielle Energiequellen zu identifizieren, und atmosphärische Daten, um extreme Wetterlagen besser vorherzusagen und sich darauf vorzubereiten. NVIDIA Tensor-Recheneinheiten unterstützen ein breites Spektrum an Genauigkeitsformaten, einschließlich FP64 und FP32, um wissenschaftliches Rechnen mit der höchsten erforderlichen Genauigkeit zu beschleunigen.

Das HPC-SDK stellt die wichtigsten Compiler, Bibliotheken und Tools für die Entwicklung von HPC-Anwendungen für die NVIDIA-Plattform zur Verfügung.

NVIDIA-Rubin-Tensor-Recheneinheiten

Verbesserte fünfte Generation

Mit der NVIDIA Rubin-Plattform werden verbesserte Tensor-Recheneinheiten der fünften Generation eingeführt. Sie wurden für die Beschleunigung moderner KI-Fabriken entwickelt und optimieren die Unterstützung von 4-Bit-NVFP4- und FP8-Arithmetik mit geringer Genauigkeit. Durch die enge Integration dieser Tensor-Recheneinheiten und erweiterter Einheiten für spezielle Funktionen innerhalb der Streaming-Multiprozessoren von NVIDIA Rubin beschleunigt die Plattform Aufmerksamkeitsmechanismen und dünnbesetzte Rechenpfade erheblich, wodurch sowohl die arithmetische Dichte als auch die Energieeffizienz verbessert werden, ohne die Genauigkeit der Modelle zu beeinträchtigen.

50-PFLOPS-Transformer-Engine

Die NVIDIA Rubin-GPU unterstützt die nächste Generation der agentischen KI und verfügt über eine 50-PetaFLOPS-Transformer-Engine, die Tensor-Recheneinheiten der fünften Generation und NVFP4-Genauigkeit nutzt, um die Inferenzeffizienz zu maximieren. Dieser architektonische Sprung skaliert nahtlos auf 3.600 PFLOPS für NVFP4-Inferenz im NVIDIA Vera-Rubin-NVL72-System und bietet den enormen Durchsatz, der für Echtzeit-Reasoning-Modelle unerlässlich ist.

Emulation

NVIDIA Blackwell- und Rubin-Architekturen können FP32- und FP64-Matrixoperationen emulieren, indem sie Eingabewerte zerlegen und Tensor-Recheneinheiten mit hohem Durchsatz und geringerer Genauigkeit nutzen. Dieses Konzept kann die Leistung und Energieeffizienz erheblich steigern und gleichzeitig die native IEEE754-Genauigkeit erreichen oder sogar übertreffen. Durch die Verwendung komplexer, softwaregestützter Algorithmen und Festkommaoperationen bietet die Emulation eine kontrollierte, hocheffiziente Alternative zu herkömmlichen Hardware-Ausführungsmethoden, die mit höherer Genauigkeit arbeiten.

NVIDIA Blackwell Tensor-Recheneinheiten

Fünfte Generation

Die NVIDIA Blackwell-Architektur bietet eine 30-fache Beschleunigung im Vergleich zur vorherigen NVIDIA-Hopper™-Generation für massive Modelle wie GPT-MoE-1.8T. Dieser Leistungsschub wird mit der fünften Generation von Tensor-Recheneinheiten ermöglicht. NVIDIA-Blackwell-Tensor-Recheneinheiten fügen neue Genauigkeitsstufen hinzu, darunter von der Community definierte Microscaling-Formate, was eine bessere Genauigkeit und einen einfacheren Austausch für höhere Genauigkeiten ermöglicht.

Neue Precision-Formate

Da generative KI-Modelle immer größer und komplexer werden, ist es entscheidend, die Trainings- und Inferenzleistung zu verbessern. Um diese Rechenanforderungen zu erfüllen, unterstützen NVIDIA-Blackwell-Tensor-Recheneinheiten neue Quantisierungsformate und Genauigkeiten, einschließlich von der Community definierter Microscaling-Formate.

Transformer-Engine der zweiten Generation

Die Transformer-Engine der zweiten Generation nutzt eine angepasste Technik mit NVIDIA-Blackwell-Tensor-Recheneinheiten in Kombination mit Innovationen des NVIDIA® TensorRT™-LLM- und NeMo™-Frameworks, um Inferenz und Training für große Sprachmodelle (LLMs) und MoE-Modelle (Mixture-of-Experts) zu beschleunigen. Die Transformer-Engine basiert auf Tensor Cores mit FP4-Präzision, die die Leistung und Effizienz verdoppeln und gleichzeitig die hohe Genauigkeit für aktuelle und zukünftige MoE-Modelle beibehalten.

Die Transformer-Engine soll die heutigen LLMs mit Echtzeit-Leistungseigenschaften einem breiten Nutzerspektrum verfügbar machen. Unternehmen können Geschäftsprozesse optimieren, indem sie hochmoderne generative KI-Modelle zu bezahlbaren Preisen bereitstellen.

Die leistungsstärkste End-to-End-Plattform für KI und HPC im Rechenzentrum

Tensor-Recheneinheiten sind wesentliche Bausteine der vollständigen NVIDIA-Rechenzentrumslösung, die Hardware, Netzwerktechnik, Software, Bibliotheken sowie optimierte KI-Modelle und Anwendungen aus dem NVIDIA NGC™-Katalog umfasst. Die leistungsstärkste End-to-End-KI- und HPC-Plattform ermöglicht es Forschern, realistische Ergebnisse zu liefern und Lösungen nach Maß für die Produktion bereitzustellen.

NVIDIA Rubin NVIDIA Blackwell
Unterstützte Precisions für Tensor-Recheneinheiten NVFP4, FP64, TF32, BF16, FP16, FP8/FP6, INT8, NVFP4, FP64, TF32, BF16, FP16, FP8/FP6, INT8,
Unterstützte Precisions für CUDA®-Recheneinheiten FP64, FP32, INT32, FP16, BF16 FP64, FP32, FP16, BF16

* Vorläufige Spezifikationen, Änderungen möglich

Erfahren Sie mehr über die NVIDIA Vera-Rubin-Plattform.