NVIDIA Tensor-Recheneinheiten

Nie dagewesene Beschleunigung für HPC und KI

Tensor-Recheneinheiten ermöglichen Mixed-Precision-Computing. Dazu werden Berechnungen dynamisch angepasst, um den Durchsatz bei gleichbleibender Genauigkeit zu beschleunigen. Die neueste Generation von Tensor-Recheneinheiten ist bei einer breiteren Palette von KI- und High-Performance-Computing-Aufgaben (HPC) schneller denn je. Von der 6-fachen Beschleunigung des Transformer-Netzwerk-Trainings bis hin zur 3-fachen Leistungssteigerung in allen Anwendungen bieten NVIDIA Tensor-Recheneinheiten neue Funktionen für alle Workloads.

Revolutionäres KI-Training

Revolutionäres KI-Training

Die Komplexität von KI-Modellen steigt rapide, um neuen Herausforderungen wie Konversations-KI gerecht zu werden. Das Trainieren dieser riesigen Modelle mit FP32 kann Wochen oder sogar Monate in Anspruch nehmen. Tensor-Recheneinheiten in NVIDIA-Grafikprozessoren bieten eine um eine Größenordnung höhere Leistung bei geringeren Precisions wie 8-Bit-Gleitkomma (FP8) in der Transformer-Engine, Tensor Float 32 (TF32), and FP16 Und mit direkter Unterstützung in nativen Frameworks über NVIDIA CUDA-X-Bibliotheken ist die Implementierung automatisch, wodurch die Trainingszeiten bei gleichbleibender Genauigkeit drastisch gesenkt werden.

Dank der Tensor-Recheneinheiten gewann NVIDIA MLPerf, den Benchmark für Training in der Branche.

Bahnbrechende KI-Inferenz

Bahnbrechende KI-Inferenz

Ein hervorragender KI-Inferenzbeschleuniger muss nicht nur eine herausragende Leistung, sondern auch die Flexibilität bieten, um verschiedene neuronale Netzwerke zu beschleunigen. Gleichzeitig muss er programmierbar sein, damit Entwickler neue Netze erstellen können. Niedrige Latenz bei hohem Durchsatz und gleichzeitiger Maximierung der Auslastung sind die wichtigsten Leistungsanforderungen für die zuverlässige Bereitstellung von Inferenz. NVIDIA Tensor-Recheneinheiten bieten eine umfassende Reihe an Precisions – TF32, bfloat16, FP16, FP8 und INT8 – und sind damit unschlagbar vielseitig und leistungsstark.  

Dank der Tensor-Recheneinheiten gewann NVIDIA MLPerf, den Benchmark für Inferenz in der Branche.

Advanced HPC

Advanced HPC

HPC ist eine Säule der modernen Wissenschaft. In der modernen Forschung nutzen Wissenschaftler Simulationen, um komplexe Moleküle zur Erforschung von Medikamenten besser untersuchen zu können, Physik für potenzielle Energiequellen und atmosphärische Daten besser zu verstehen und extreme Wetterverhältnisse besser vorhersagen und bessere Vorbereitungen darauf treffen zu können. NVIDIA Tensor-Recheneinheiten bieten eine umfassende Reihe an Precisions, einschließlich FP64, um wissenschaftliche Berechnungen mit höchster Genauigkeit zu beschleunigen.

Die HPC SDK stellt die wichtigsten Compiler, Bibliotheken und Tools für die Entwicklung von HPC-Anwendungen für die NVIDIA-Plattform zur Verfügung.

NVIDIA H100 Tensor-Recheneinheiten

Vierte Generation

Seit der Einführung der Tensor Core-Technologie konnten NVIDIA-Grafikprozessoren ihre Spitzenleistung um das 60-Fache steigern und so die Demokratisierung des Computings für KI und HPC fördern. Die NVIDIA Hopper-Architektur™ erweitert die Tensor Cores der vierten Generation mit der Transformer-Engine mit einer neuen 8-Bit-Gleitkomma-Precision (FP8), um eine 6-mal höhere Leistung als FP16 für Modelltraining mit Parametern basierend auf Billionen zu liefern. In Kombination mit 3-mal mehr Leistung mit TF32-, FP64-, FP16- und INT8-Precisions bieten Hopper-Tensor-Recheneinheiten die höchste Beschleunigung für alle Workloads.

  • FP8
  • TF32
  • FP64
  • FP16
  • INT8
FP8 Tensor-Recheneinheiten

FP8

Die Trainingszeiten für Transformer-KI-Netzwerke erstrecken sich auf Monate, was großen mathematischen Berechnung zuzuschreiben ist. Die Präzision des neuen FP8 in Hopper bietet bis zu 6-mal mehr Leistung als FP16 auf Ampere. FP8 wird in der Transformer-Engine verwendet, einer Hopper-Tensor-Recheneinheit-Technologie, die speziell zur Beschleunigung des Trainings für Transformer-Modelle entwickelt wurde. Hopper-Tensor-Recheneinheiten sind in der Lage, gemischte FP8- und FP16-Precision-Formate anzuwenden, um KI-Berechnungen für das Transformer-Training erheblich zu beschleunigen und gleichzeitig die Genauigkeit aufrechtzuerhalten. FP8 ermöglicht auch massive Beschleunigungen bei der Inferenz großer Sprachmodelle mit bis zu 30-mal besserer Leistung als Ampere.

Tensor Float 32

TF32

Da sich KI-Netzwerke und -Datensätze exponentiell erweitern, steigt auch der Bedarf an Rechenleistung gleichermaßen stark an. Rechenvorgänge mit geringerer Precision haben zu einer enormen Leistungsbeschleunigung geführt. Es waren jedoch im Verlauf einige Code-Änderungen erforderlich. H100 stellt eine neue Precision, TF32, bereit, die genau wie FP32 funktioniert und gleichzeitig die KI um das bis zu 3-Fache im Vergleich mit NVIDIA Ampere™ Tensor-Recheneinheiten beschleunigt, ohne dass Codeänderungen erforderlich sind.

FP64 Tensor-Recheneinheiten

FP64

H100 liefert weiterhin die Leistung der Tensor-Recheneinheiten für HPC – mit mehr Leistung als je zuvor. Die FP64-Leistung von H100 ist dreimal schneller als die vorige Generation und beschleunigt eine ganze Reihe von HPC-Anwendungen, die Double-Precision-Mathematik benötigen.

FP16 Tensor-Recheneinheiten

FP16

H100 Tensor-Recheneinheiten steigern FP16 für Deep Learning und bieten eine 3-fache KI-Beschleunigung im Vergleich zu den Tensor-Recheneinheiten der NVIDIA Ampere-Architektur. Dadurch wird der Durchsatz erheblich gesteigert und die Zeit bis zur Konvergenz verkürzt.

INT8

INT8

Die in NVIDIA Turing™ erstmals eingeführten INT8 Tensor-Recheneinheiten beschleunigen den Inferenzdurchsatz erheblich und liefern enorme Effizienzsteigerungen. INT8 in der NVIDIA Hopper-Architektur liefert im Vergleich zu der vorigen Generation von Tensor-Recheneinheiten einen 3-mal höheren Durchsatz bei Produktionsbereitstellungen. Diese Vielseitigkeit ermöglicht branchenführende Leistung sowohl für große Batch-Größen als auch für Echtzeit-Workloads in Kern-Rechenzentren und peripheren Rechenzentren.  

Tensor-Recheneinheiten in der NVIDIA Ampere-Architektur

Tensor-Recheneinheiten in der NVIDIA Ampere-Architektur

Dritte Generation

Die Tensor-Recheneinheiten in der NVIDIA Ampere-Architektur baut auf diesen Innovationen auf und ermöglicht neue Precision-Niveaus – TF32 und FP64 –, um die KI-Akzeptanz zu beschleunigen und zu vereinfachen und die Leistung von Tensor-Recheneinheiten auf HPC auszudehnen. Mit der Unterstützung von bfloat16, INT8 und INT4 schaffen diese Tensor-Recheneinheiten der dritten Generation unglaublich vielseitige Beschleunigung für KI-Training und Inferenz.

NVIDIA Turing Tensor-Recheneinheiten

Zweite Generation

NVIDIA Turing Tensor-Recheneinheiten verfügen über Multi-Precision-Computing für effiziente KI-Inferenz. Turing Tensor-Recheneinheiten bieten umfassende Precisions für Deep-Learning-Training und Inferenz von FP32 über FP16 bis hin zu INT8 und außerdem INT4 – so liefern sie im Vergleich zu NVIDIA Pascal-GPUs ein gewaltiges Leistungsplus.

Turing Tensor Cores
Volta Tensor-Recheneinheiten

NVIDIA Volta Tensor-Recheneinheiten

Erste Generation

Die NVIDIA Volta Tensor-Recheneinheiten wurden speziell für Deep Learning entwickelt und bieten bahnbrechende Leistung mit einer Mixed-Precision-Matrixmultiplikation in FP16 und FP32 und bis zu 12-fach höheren Spitzen-teraFLOPS (TFLOPS) für das Training und 6-fach höheren Spitzen-TFLOPS für Inferenz gegenüber NVIDIA Pascal. Dank dieses wichtigen Merkmals weist Volta beim Training und bei der Inferenz eine dreimal höhere Leistung auf als Pascal.

Die leistungsstärkste End-to-End-Plattform für KI und HPC im Rechenzentrum

Tensor-Recheneinheiten sind ein wichtiger Teil der kompletten NVIDIA-Lösung für Rechenzentren, die Hardware, Netzwerke, Software, Bibliotheken und optimierte KI-Modelle und -Anwendungen aus dem NVIDIA NGC-Katalog umfasst. Die leistungsstärkste End-to-End-KI- und HPC-Plattform ermöglicht es Forschern, realistische Ergebnisse zu liefern und Lösungen nach Maß für die Produktion bereitzustellen.

Hopper Ampere  Turing Volta
Unterstützte Precisions für Tensor-Recheneinheiten FP64, TF32, bfloat16, FP16, FP8, INT8 FP64, TF32, bfloat16, FP16, INT8, INT4, INT1 FP16, INT8, INT4, INT1 FP16
Unterstützte Precisions für CUDA®-Recheneinheiten FP64, FP32, FP16, bfloat16, INT8 FP64, FP32, FP16, bfloat16, INT8 FP64, FP32, FP16, INT8 FP64, FP32, FP16, INT8

 Vorläufige Spezifikationen, Änderungen möglich

Tiefer Einblick in die NVIDIA Hopper-Architektur