NVIDIA A100 Tensor-Core-GPU

Nie dagewesene Beschleunigung in jeder Größenordnung

Beschleunigung der wichtigsten Arbeit unserer Zeit

Die NVIDIA A100 Tensor Core-GPU bietet nie dagewesene Beschleunigung in jeder Größenordnung für die weltweit leistungsstärksten elastischen Rechenzentren in den Bereichen KI, Datenanalysen und HPC. A100 basiert auf der NVIDIA Ampere-Architektur und ist die treibende Kraft der Rechenzentrumsplattform von NVIDIA. A100 bietet eine bis zu 20-mal höhere Leistung gegenüber der Vorgängergeneration und lässt sich in sieben Grafikprozessorinstanzen partitionieren, um sich dynamisch an veränderliche Anforderungen anzupassen. A100 ist in Versionen mit 40 GB und 80 GB Arbeitsspeicher erhältlich. Die A100 80 GB verwendet erstmals die höchste Speicherbandbreite der Welt mit über 2 Terabyte pro Sekunde (TB/s), um auch die größten Modelle und Datensätze zu bewältigen. 

Die leistungsstärkste End-to-End Plattform für KI und HPC im Rechenzentrum

A100 ist Teil des kompletten NVIDIA-Lösungs-Stacks für Rechenzentren, der Bausteine für Hardware, Netzwerke, Software, Bibliotheken und optimierte KI-Modelle und -Anwendungen von NGC umfasst. Sie repräsentiert die leistungsstärkste End-to-End-KI- und HPC-Plattform für Rechenzentren und ermöglicht es Forschern, realistische Ergebnisse zu liefern und Lösungen in der entsprechenden Größenordnung bereitzustellen.

 

Making of Ampere Video

Deep Learning Training

Bis zu 3-mal schnelleres KI-Training bei den größten Modellen

DLRM-Training

Up to 3X Higher AI Training on Largest Models

Die Komplexität von KI-Modellen steigt rapide, um neuen Herausforderungen wie Konversations-KI gerecht zu werden. Ihr Training erfordert enorme Rechenleistung und Skalierbarkeit.

Die Tensor Cores NVIDIA A100 mit Tensor Float (TF32)-Präzision bieten bis zu 20-mal mehr Leistung gegenüber NVIDIA Volta, erfordern dafür keine Code-Änderungen und bieten einen zusätzlichen 2-fachen Boost mit automatischer gemischter Präzision und FP16. In Kombination mit NVIDIA® NVLink®, NVIDIA NVSwitch, PCI Gen4, NVIDIA® Mellanox® InfiniBand® und dem NVIDIA Magnum IO-SDK ist die Skalierung auf Tausende A100-Grafikprozessoren möglich.

Trainings-Workloads wie BERT können in großem Maßstab mit 2.048 A100-GPUs in unter einer Minute gelöst werden, was einen Weltrekord in der Lösungszeit darstellt.

Bei den größten Modelle mit massiven Datentabellen wie Deep Learning-Empfehlungsmodellen (DLRM) erreicht die A100 80 GB bis zu 1,3 TB vereinheitlichten Arbeitsspeicher pro Knoten und bietet bis zu 3-mal mehr Durchsatz als die A100 40 GB.

Die Führungsrolle von NVIDIA in MLPerf wurde durch mehrere Leistungsrekorde bei KI-Trainings-Benchmarks in der ganzen Branche gefestigt.

Inferenz für Deep Learning

Mit der A100 werden bahnbrechende Funktionen zur Optimierung von Inferenzworkloads eingeführt. Sie beschleunigt ein breites Spektrum von Präzisionen, von FP32 bis INT4. Durch die Mehr-Instanzen-Grafikprozessor-Technologie (MIG) können mehrere Netzwerke gleichzeitig auf einer einzelnen A100-GPU ausgeführt werden, um die Rechenressourcen optimal zu nutzen. Zusätzlich zu den anderen Inferenzleistungssteigerungen der A100 bietet die strukturelle geringe Dichte bis zu 2-mal mehr Leistung.

Für hochmoderne Konversations-KI-Modelle wie BERT bietet die A100 einen bis zu 249-mal schnelleren Inferenzdurchsatz gegenüber CPUs.

Bei den komplexesten Modellen mit beschränkten Batchgrößen, wie RNN-T für automatische Spracherkennung, verdoppelt die erhöhte Speicherkapazität der A100 80GB die Größe jeder MIG und liefert so einen 1,25-mal größeren Durchsatz als die A100 40 GB.

NVIDIA bewies marktführende Leistung bei der Inferenz in MLPerf. Die A100 baut diese Führung mit 20-mal mehr Leistung weiter aus.

Bis zu 249-mal höhere Leistung bei KI-Inferenz
gegenüber CPUs

BERT-LARGE-Inferenz

Up to 249X Higher AI Inference Performance  Over CPUs

Bis zu 1,25-mal höhere Leistung bei KI-Inferenz
gegenüber A100 40 GB

RNN-T-Inferenz: Single Stream

Up to 1.25X Higher AI Inference Performance  Over A100 40GB

High-Performance Computing

Um die nächste Generation der Entdeckungen zu erschließen, betrachten Wissenschaftler Simulationen, um die Welt um uns besser zu verstehen.

NVIDIA A100 führt Tensor Cores mit doppelter Präzision ein und stellt somit den größten Leistungssprung für HPC seit der Einführung von GPUs dar. In Kombination mit 80 GB des schnellsten Grafikspeichers können Forscher eine vormals 10-stündige, Simulation auf A100 mit doppelter Präzision auf weniger als vier Stunden verkürzen. HPC-Anwendungen können zudem TF32 nutzen und erreichen so einen bis zu 11-mal höheren Durchsatz bei dichten Matrixmultiplikationsaufgaben mit einfacher Genauigkeit.

Für jene HPC-Anwendungen mit den größten Datensätzen bietet der zusätzliche Speicherplatz der A100 80 GB eine bis zu 2-fache Steigerung des Durchsatzes in Quantum Espresso, einer Materialsimulation. Der enorme Arbeitsspeicher und die unübertroffene Speicherbandbreite machen die A100 80 GB zur idealen Plattform für Workloads der nächsten Generation.

11-mal mehr Leistung bei HPC in vier Jahren

Führende HPC-Anwendungen

11X More HPC Performance  in Four Years

Bis zu 1,8-mal höhere Leistung für HPC-Anwendungen

Quantum Espresso

Up to 1.8X Higher Performance  for HPC Applications

Leistungsstarke Datenanalyse

Bis zu 83-mal schneller als auf CPU, 2-mal schneller als A100 40 GB im Big Data Analytics-Benchmark

Up to 83X Faster than CPU, 2X Faster than A100 40GB on Big Data Analytics Benchmark

Datenwissenschaftler müssen dazu in der Lage sein, umfangreiche Datensätze zu analysieren, zu visualisieren und Erkenntnisse aus ihnen zu gewinnen. Skalierungslösungen werden jedoch oft davon ausgebremst, dass Datensätze auf mehrere Server verteilt sind.

Beschleunigte Server mit A100 liefern die nötige Rechenleistung – zusammen mit gewaltigem Arbeitsspeicher, einer Speicherbandbreite von 2 Terabyte pro Sekunde (TB/s) sowie Skalierbarkeit über NVIDIA® NVLink® und NVSwitch – um diese gewaltigen Workloads zu bewältigen. In Kombination mit InfiniBand, NVIDIA Magnum IO und der RAPIDS-Suite an Open-Source-Bibliotheken, einschließlich des RAPIDS Accelerator für Apache Spark für GPU-beschleunigte Datenanalysen, beschleunigt die Rechenzentrumsplattform von NVIDIA diese enormen Workloads mit unübertroffener Leistung und Effizienz.

In einem großen Datenanalyse-Benchmark erzielte die A100 80 GB mit 83-mal höherem Durchsatz Erkenntnisse als CPUs und 2-fach höhere Leistung als die A100 40 GB, womit sie ideal für zunehmende Workloads mit stetig wachsenden Datensätzen ist.

Unternehmensfähige Auslastung

7-mal höherer Inferenz-Durchsatz mit Mehr-Instanzen-Grafikprozessor (MIG)

BERT-Large-Inferenz

7X Higher Inference Throughput with Multi-Instance GPU (MIG)

A100 mit MIG optimiert die Auslastung GPU-beschleunigter Infrastruktur. Mit MIG lässt sich eine A100-GPU in bis zu sieben unabhängige Instanzen partitionieren, sodass mehrere Nutzer zeitgleich GPU-Beschleunigung nutzen können. Bei der A100 40 GB können jeder MIG-Instanz bis zu 5 GB zugeteilt werden, durch die erhöhte Speicherkapazität wird dies bei der A100 80 GB auf 10 GB verdoppelt.

MIG arbeitet mit Kubernetes, Containern und hypervisorbasierter Servervirtualisierung. MIG ermöglicht es der Infrastrukturverwaltung, jeder Aufgabe eine maßgeschneiderte GPU mit garantierter Servicequalität (QoS) zuzuweisen, wodurch jeder Nutzer Zugang zu den beschleunigten Computing Ressourcen erhält.

Das Beste aus Ihren Systemen herausholen

Ein von NVIDIA zertifiziertes System, bestehend aus A100 und NVIDIA Mellanox SmartnNICs und Grafikprozessoren wird für Leistung, Funktionalität, Skalierbarkeit und Sicherheit validiert, sodass Unternehmen Komplettlösungen für die Verwendung von KI aus dem NVIDIA NGC-Katalog problemlos implementieren können.

GPUs für Rechenzentren

NVIDIA A100 für HGX

NVIDIA A100 für HGX

Ultimative Leistung für alle Workloads.

NVIDIA A100 für PCIe

NVIDIA A100 für PCIe

Höchste Vielseitigkeit für alle Workloads.

Technische Daten

  A100 40GB PCIe A100 80GB PCIe A100 40GB SXM A100 80GB SXM
FP64 9,7 TFLOPS
FP64-Tensor-Core 19,5 TFLOPS
FP32 19,5 TFLOPS
Tensor Float 32 (TF32) 156 TFLOPS | 312 TFLOPS*
BFLOAT16-Tensor-Core 312 TFLOPS | 624 TFLOPS*
FP16-Tensor-Core 312 TFLOPS | 624 TFLOPS*
INT8-Tensor-Core 624 TOPS | 1248 TOPS*
GPU-Speicher 40GB HBM2 80GB HBM2e 40GB HBM2 80GB HBM2e
GPU-Speicherbandbreite 1,555GB/s 1,935GB/s 1,555GB/s 2,039GB/s
Max Thermal Design Power (TDP) 250W 300W 400W 400W
Mehr-Instanzen-GPU Bis zu 7 MIGs mit 5 GB Bis zu 7 MIGs mit 10 GB Bis zu 7 MIGs mit 5 GB Bis zu 7 MIGs mit 10 GB
Formfaktor PCIe SXM
Konnektivität NVIDIA® NVLink®-Brücke für 2 GPUs: 600 GB/s **
PCIe Gen4: 64 GB/s
NVLink: 600GB/s
PCIe Gen4: 64GB/s
Serveroptionen Partner und NVIDIA-zertifizierte Systeme mit 1-8 GPUs NVIDIA HGX A100-Partner und NVIDIA-zertifizierte Systeme mit 4, 8 oder 16 GPUs
NVIDIA DGX™ A100 mit 8 GPUs
 

Die neuesten MLPerf-Benchmarkdaten lesen

Einblicke in die NVIDIA Ampere-Architektur

Erfahren Sie, was bei der NVIDIA Ampere-Architektur und ihrer Implementierung im NVIDIA A100-Grafikprozessor neu ist.