NVIDIA Tensor-Recheneinheiten

Nie dagewesene Beschleunigung für HPC und KI

Tensor-Recheneinheiten ermöglichen Mixed-Precision-Computing. Dazu werden Berechnungen dynamisch angepasst, um den Durchsatz bei gleichbleibender Genauigkeit zu beschleunigen. Die neueste Generation erweitert diese Beschleunigung auf eine umfassende Bandbreite an Workloads. Von der 10-fachen Beschleunigung im KI-Training mit Tensor Float 32 (TF32), einer revolutionären neuen Precision bis hin zur 2,5-fachen Steigerung beim High-Performance-Computing mit Floating Point 64 (FP64) liefern NVIDIA Tensor-Recheneinheiten neue Funktionen für alle Workloads.

Bahnbrechende Deep-Learning-Schulungen

Bahnbrechende Deep-Learning-Schulungen

KI-Modelle werden immer komplexer, da es in diesem Bereich neue Herausforderungen gibt, wie beispielsweise genaue Konversations-KI und Deep-Empfehlungssysteme. Konversations-KI-Modelle wie Megatron sind mehr als hundertmal so groß und viel komplexer als Bildklassifizierungsmodelle wie ResNet-50. Das Trainieren dieser riesigen Modelle mit FP32-Precision kann Tage oder sogar Wochen in Anspruch nehmen. Tensor-Recheneinheiten in NVIDIA-Grafikprozessoren bieten eine um eine Größenordnung höhere Leistung bei geringeren Precisions wie TF32 und FP16. Und mit direkter Unterstützung in nativen Frameworks über NVIDIA CUDA-X -Bibliotheken ist die Implementierung automatisch, wodurch die Trainingszeiten bei gleichbleibender Genauigkeit drastisch gesenkt werden

Dank der Tensor-Recheneinheiten gewann NVIDIA MLPerf 0.6 den ersten Benchmark für Training in der KI-Branche.

Durchbruch bei der Deep-Learning-Inferenz

Durchbruch bei der Deep-Learning-Inferenz

Ein hervorragender KI-Inferenzbeschleuniger muss nicht nur eine herausragende Leistung, sondern auch die Flexibilität bieten, um verschiedene neuronale Netzwerke zu beschleunigen. Gleichzeitig muss er programmierbar sein, damit Entwickler neue Netze erstellen können. Niedrige Latenz bei hohem Durchsatz und gleichzeitiger Maximierung der Auslastung sind die wichtigsten Leistungsanforderungen für die zuverlässige Bereitstellung von Inferenz. NVIDIA Tensor-Recheneinheiten bieten eine umfassende Reihe an Precisions – TF32, FP16-, int8 und INT4 – und sind damit unschlagbar vielseitig und leistungsstark.

Dank der Tensor-Recheneinheiten gewann NVIDIA MLPerf Inference 0.5, den ersten Benchmark für Interferenz in der KI-Branche.

Fortschrittliches High-Performance Computing

Fortschrittliches High-Performance Computing

HPC ist eine Säule der modernen Wissenschaft. In der modernen Forschung nutzen Wissenschaftler Simulationen, um komplexe Moleküle zur Erforschung von Medikamenten besser untersuchen zu können, Physik für potenzielle Energiequellen und atmosphärische Daten besser zu verstehen und extreme Wetterverhältnisse besser vorhersagen und bessere Vorbereitungen darauf treffen zu können. NVIDIA Tensor-Recheneinheiten bieten eine umfassende Bandbreite an Precisions, einschließlich FP64, um wissenschaftliche Berechnungen mit höchster Genauigkeit zu beschleunigen.

Die NVIDIA HPC SDK ist eine umfassende Suite der wichtigsten Compiler, Bibliotheken und Tools für die Entwicklung von HPC-Anwendungen für die NVIDIA-Plattform.

A100 Tensor-Recheneinheiten

Dritte Generation

Die NVIDIA Tensor Core-Technologie hat die KI drastisch beschleunigt, wodurch die Trainingszeiten von mehreren Wochen auf wenige Stunden gesenkt und die Inferenz stark beschleunigt wurde. Die NVIDIA Ampere-Architektur ermöglicht eine enorme Leistungssteigerung und bietet neue Precisions für das gesamte Spektrum der Forschung – TF32, FP64, FP16, INT8 und INT4. So wird die Einführung der KI beschleunigt und die Leistungsfähigkeit der NVIDIA Tensor-Recheneinheiten auf HPC erweitert.

  • TF32
  • FP64
  • FP16
  • INT8
Tensor Float 32

Tensor Float 32

Da sich KI-Netzwerke und -Datensätze exponentiell erweitern, steigt auch der Bedarf an Rechenleistung gleichermaßen stark an. Rechenvorgänge mit geringerer Precision haben zu einer enormen Leistungsbeschleunigung geführt. Es waren jedoch im Verlauf einige Code-Änderungen erforderlich. A100 stellt eine neue Precision, Tensor Float 32 (TF32) bereit, die genau wie FP32 funktioniert und gleichzeitig die KI um das bis zu 20-Fache beschleunigt, ohne dass Codeänderungen erforderlich sind.

FP64 Tensor-Recheneinheiten

FP64 Tensor-Recheneinheiten

A100 stellt die Leistung von Tensor-Recheneinheiten für HPC bereit und markiert damit den größten Meilenstein seit der Einführung von Double-Precision-GPU-Computing für HPC. Da nun matrixgesteuerte Prozesse in FP64-Precision möglich sind, können eine ganze Reihe von HPC-Anwendungen, die Double-Precision-Computing erfordern, jetzt mit der 2,5-fachen Leistung und Effizienz im Vergleich zu früheren Generationen von Grafikprozessoren erzielen.

FP16 Tensor-Recheneinheiten

FP16 Tensor-Recheneinheiten

A100 bietet die Leistung von Tensor-Recheneinheiten für FP16 für Deep-Learning sowie eine 2-fache Beschleunigung im selben Vorgang in NVIDIA Volta™ für Grafikvorgänge mit Single-Precision. Dadurch wird der Durchsatz erheblich gesteigert und die Zeit bis zur Konvergenz verkürzt.

INT8 Precision

INT8-Precision

Die in NVIDIA Turing erstmals eingeführten INT8 Tensor-Recheneinheiten beschleunigen den Interferenzdurchsatz erheblich und ermöglichen so eine deutliche Effizienzsteigerung. INT8 in der NVIDIA Ampere-Architektur liefert im Vergleich einen10-mal höheren Durchsatz von Volta bei Produktionsbereitstellungen. Dies zeigt, wie vielseitig die Computing-Plattform sowohl für große Batch-Größen als auch für Echtzeit-Workloads in Kern-Rechenzentren und peripheren Rechenzentren ist

Turing Tensor-Recheneinheiten

Zweite Generation

NVIDIA Turing™ Tensor-Recheneinheiten verfügen über Multi-Precision-Computing für effiziente KI-Inferenz. Turing Tensor-Recheneinheiten bieten eine breite Palette an Precisions für Deep-Learning und Interferenz von FP32 über FP16 bis hin zu INT8 und außerdem INT4 – so liefern sie im Vergleich zu NVIDIA Pascal™-GPUs ein gewaltiges Leistungsplus.

Turing Tensor-Recheneinheiten
Volta Tensor-Recheneinheiten

Volta Tensor-Recheneinheiten

Erste Generation

Die NVIDIA Volta™ Tensor-Recheneinheiten wurden speziell für Deep Learning entwickelt und bieten bahnbrechende Leistung mit einer Mixed-Precision-Matrixmultiplikation in FP16 und FP32 und bis zu 12-fach höheren Spitzen-teraFLOPS (TFLOPS) für das Training und 6-fach höheren Spitzen-TFLOPS für Inferenz gegenüber NVIDIA Pascal. Dank dieses wichtigen Merkmals weist Volta beim Training und bei der Inferenz eine dreimal höhere Leistung auf als Pascal.

Die leistungsstärkste Rechenzentren-Plattform für End-to-End-KI und HPC

Tensor-Recheneinheiten sind wesentliche Grundelemente des vollständigen Lösungspakets für NVIDIA-Rechenzentren. Diese umfasst Hardware, Netzwerke, Software, Bibliotheken und optimierte KI-Modelle und Anwendungen von NGC. Die leistungsstärkste End-to-End-KI- und HPC-Plattform ermöglicht es Forschern, realistische Ergebnisse zu liefern und Lösungen nach Maß für die Produktion bereitzustellen.

NVIDIA A100 NVIDIA Turing NVIDIA Volta
Unterstützte Precisions für Tensor-Recheneinheiten FP64, TF32, bfloat16, FP16, INT8, INT4, INT1 FP16, INT8, INT4, INT1 FP16
Unterstützte Precisions für CUDA®- Recheneinheiten FP64, FP32, FP16, bfloat16, INT8 FP64, FP32, FP16, INT8 FP64, FP32, FP16, INT8

NVIDIA Tensor-Recheneinheiten entdecken

Nehmen Sie an diesem Webinar teil, um zu erfahren, was für eine optimale Leistung auf NVIDIA Tensor Core-Grafikprozessoren erforderlich ist.