NVIDIA Tensor-Recheneinheiten

Nie dagewesene Beschleunigung für generative KI

Tensor-Recheneinheiten ermöglichen Mixed-Precision-Computing. Dazu werden Berechnungen dynamisch angepasst, um den Durchsatz bei gleichbleibender Genauigkeit und verbesserter Sicherheit zu beschleunigen. Die neueste Generation von Tensor-Recheneinheiten ist bei einer breiten Palette von KI- und High-Performance-Computing-Aufgaben (HPC) schneller denn je. NVIDIA Tensor-Recheneinheiten beschleunigen alle Workloads für moderne KI-Fabriken von der 4-fachen Beschleunigung beim Training von generativen KI-Modellen mit Billionen Parametern bis hin zur 45-fachen Steigerung der Inferenzleistung.

Revolutionäres KI-Training

Das Trainieren von generativen KI-Modellen mit mehreren Billionen Parametern in 16-Bit-Gleitkomma-Precision (FP16) kann Monate dauern. NVIDIA Tensor-Recheneinheiten bieten eine um eine Größenordnung höhere Leistung bei geringeren Precisions wie FP8 in der Transformer-Engine, Tensor Float 32 (TF32) und FP16. Mit direkter Unterstützung in nativen Frameworks über CUDA-X™-Bibliothekenist die Implementierung automatisch, wodurch die Trainingszeiten bei gleichbleibender Genauigkeit drastisch gesenkt werden.   

Bahnbrechende generative KI-Engine

Niedrige Latenz bei hohem Durchsatz und gleichzeitiger Maximierung der Auslastung zu erreichen, ist die wichtigste Leistungsanforderung für die zuverlässige Bereitstellung von Inferenz. Die Transformer-Engine der zweiten Generation der NVIDIA Blackwell-Architektur bietet außergewöhnliche Leistung und Vielseitigkeit, um verschiedene generative KI-Modelle mit mehreren Billionen Parametern zu beschleunigen. 

Dank der Tensor-Recheneinheiten konnte NVIDIA MLPerf gewinnen, den Benchmark der Branche für Inferenz.

Advanced HPC

HPC ist eine grundlegende Säule der modernen Wissenschaft. In der modernen Forschung nutzen Wissenschaftler Simulationen, um komplexe Moleküle zur Erforschung von Medikamenten besser untersuchen zu können, Physik für potenzielle Energiequellen und atmosphärische Daten, um extreme Wetterverhältnisse besser vorhersagen und bessere Vorbereitungen darauf treffen zu können. NVIDIA Tensor-Recheneinheiten bieten eine umfassende Reihe an Precisions, einschließlich FP64, um wissenschaftliche Berechnungen mit höchster Genauigkeit zu beschleunigen.

Das HPC-SDK stellt die wichtigsten Compiler, Bibliotheken und Tools für die Entwicklung von HPC-Anwendungen für die NVIDIA-Plattform zur Verfügung.

NVIDIA Blackwell Tensor-Recheneinheiten

Fünfte Generation

Die Blackwell-Architektur bietet eine 30-fache Beschleunigung im Vergleich zur Vorgängergeneration NVIDIA Hopper™ für riesige Modelle wie GPT-MoE-1.8T. Diese Leistungssteigerung wird durch die Tensor Cores der fünften Generation ermöglicht. Blackwell Tensor Cores bieten neue Präzisionen, einschließlich von der Community definierter Microscaling-Formate, für eine höhere Genauigkeit und einen einfacheren Austausch für höhere Präzision. 

Neue Precision-Formate

Da generative KI-Modelle immer größer und komplexer werden, ist es entscheidend, die Trainings- und Inferenzleistung zu verbessern. Um diese Computing-Anforderungen zu erfüllen, unterstützen die Blackwell-Tensor Cores neue Quantifizierungsformate, einschließlich von der Community definierter Microscaling-Formate.

Transformer-Engine der zweiten Generation

Die Transformer-Engine der zweiten Generation nutzt die maßgeschneiderte Blackwell Tensor Core-Technologie in Kombination mit NVIDIA® TensorRT™-LLMs und innovativen NeMo™-Frameworks, um die Inferenz und das Training für große Sprachmodelle (LLMs) und MoE-Modelle (Mixture of Experts) zu beschleunigen. Die Transformer-Engine basiert auf Tensor Cores mit FP4-Präzision, die die Leistung und Effizienz verdoppeln und gleichzeitig die hohe Genauigkeit für aktuelle und zukünftige MoE-Modelle beibehalten.

Die generative KI-Engine demokratisiert moderne LLMs mit Echtzeitleistung. Unternehmen können Geschäftsprozesse optimieren, indem sie hochmoderne generative KI-Modelle zu bezahlbaren Preisen bereitstellen.

Tensor-Recheneinheiten in der NVIDIA Hopper-Architektur

Vierte Generation

Seit der Einführung der Tensor Core-Technologie konnten NVIDIA Hopper-GPUs ihre Spitzenleistung um das 60-Fache steigern und so die Demokratisierung der Berechnung für KI und HPC voranbringen. Die NVIDIA Hopper-Architektur erweitert die Tensor Cores der vierten Generation mit der Transformer-Engine, die FP8 nutzt, um eine 6-mal höhere Leistung als FP16 für das Training von Modellen mit Billionen Parametern zu liefern. In Kombination mit 3-mal mehr Leistung durch TF32-, FP64-, FP16#- und INT8-Precisions bieten Hopper Tensor-Recheneinheiten eine Beschleunigung für alle Workloads.

Die leistungsstärkste End-to-End-Plattform für KI und HPC im Rechenzentrum

Tensor-Recheneinheiten sind wesentliche Bausteine der kompletten NVIDIA Rechenzentrumslösung, die Hardware, Netzwerke, Software, Bibliotheken und optimierte KI-Modelle und -Anwendungen aus dem NVIDIA NGC™ Katalog umfasst. Die leistungsstärkste End-to-End-KI- und HPC-Plattform ermöglicht es Forschern, realistische Ergebnisse zu liefern und Lösungen nach Maß für die Produktion bereitzustellen. 

Blackwell Hopper
Unterstützte Precisions für Tensor-Recheneinheiten FP64, TF32, BF16, FP16, FP8, INT8, FP6, FP4 FP64, TF32, BF16, FP16, FP8, INT8
Unterstützte Precisions für CUDA®-Recheneinheiten FP64, FP32, FP16, BF16 FP64, FP32, FP16, BF16, INT8

*Vorläufige Spezifikationen, Änderungen möglich

Weitere Informationen über NVIDIA Blackwell