NVIDIA A100 Tensor-Core-GPU

Nie dagewesene Beschleunigung in jeder Größenordnung

Beschleunigung der wichtigsten Arbeit
unserer Zeit

Die NVIDIA A100 Tensor Core-GPU bietet eine beispiellose Beschleunigung in jeder Größenordnung für KI, Datenanalysen und High-Performance Computing (HPC), um die schwierigsten Computing-Herausforderungen der Welt zu bewältigen. Als „Motor“ der NVIDIA-Rechenzentrum-Plattform lässt sich A100 effizient auf Tausende Grafikprozessoren skalieren oder mit der NVIDIA Multi-Instance-GPU(MIG)-Technologie in sieben GPU-Instanzen aufteilen, um Workloads aller Größen zu beschleunigen. Tensor Cores der dritten Generation beschleunigen alle Präzisionsniveaus für verschiedene Workloads und somit auch die Zeit für die Einblicke und die Markteinführungszeit.

Die leistungsstärkste End-to-End Plattform für KI und HPC im Rechenzentrum

A100 ist Teil des kompletten NVIDIA-Lösungs-Stacks für Rechenzentren, der Bausteine für Hardware, Netzwerke, Software, Bibliotheken und optimierte KI-Modelle und -Anwendungen von NGC umfasst. Sie repräsentiert die leistungsstärkste End-to-End-KI- und HPC-Plattform für Rechenzentren und ermöglicht es Forschern, realistische Ergebnisse zu liefern und Lösungen in der entsprechenden Größenordnung bereitzustellen.

 

Making of Ampere Video

Mit TF32 für KI-Training vom ersten Moment an bis zu 6-mal höhere Leistung erleben

BERT-Training

Mit TF32 für KI-Training vom ersten Moment an bis zu 6-mal höhere Leistung erleben

Deep Learning Training

Die Komplexität von KI-Modellen steigt schlagartig, da sie auf der nächsten Ebene Herausforderungen wie akkurate Konversations-KI und Deep-Recommender-Systeme übernehmen. Das Training erfordert enorme Rechenleistung und Skalierbarkeit.

A100 – die Tensor Cores der dritten Generation von NVIDIA mit Tensor Float(TF32)-Präzision – bieten bis zu 10-mal mehr Leistung gegenüber der Vorgängergeneration ohne Code-Änderungen und mit weiterem 2-fachen Boost mit automatischer Mixed-Precision. In Kombination mit NVIDIA® NVLink® der dritten Generation, NVIDIA NVSwitch, PCI Gen4, Mellanox Infiniband und dem NVIDIA Magnum IO-Software-SDK ist die Skalierung auf Tausende von A100-Grafikprozessoren möglich. Das bedeutet, dass große KI-Modelle wie BERT in nur xx Minuten in einem Cluster von xx A100s trainiert werden und so unübertroffene Leistung und Skalierbarkeit bieten können.

Mit MLPerf 0.6, der ersten branchenweiten Benchmark für KI-Training, verdeutlichte NVIDIA die eigene Führungsposition im Trainingsbereich , the first industry-wide benchmark for AI training.

Inferenz für Deep Learning

Mit A100 werden bahnbrechende neue Funktionen zur Optimierung von Inferenzworkloads eingeführt. Durch die Beschleunigung einer ganzen Reihe von Präzisionsniveaus, von FP32 über FP16 und INT8 bis hin zu INT4, ist nun eine bisher unerreichte Vielseitigkeit möglich. Mit der Multi-Instanz-GPU-Technologie (MIG) können mehrere Netzwerke gleichzeitig auf einem einzelnen A100-Grafikprozessor ausgeführt werden, um die Rechenressourcen optimal zu nutzen. Die strukturelle geringe Dichte bietet bis zu 2-mal mehr Leistung zusätzlich zu den anderen Inferenzleistungssteigerungen durch A100.

NVIDIA liefert bereits marktführende Inferenzleistung, wie eine umfassende Analyse von MLPerf Inference 0.5 – der ersten branchenweiten Benchmark für Inferenz – zeigte. A100 bietet 10-mal mehr Leistung, um diese Führungsposition weiter auszubauen.

Bis zu 7-mal höhere Leistung mit Mehr-Instanzen-Grafikprozessor (MIG) für KI-Inferenz

BERT Schnelle Inferenz

Bis zu 7-mal höhere Leistung mit Mehr-Instanzen-Grafikprozessor (MIG) für KI-Inferenz

9-mal mehr HPC-Leistung in 4 Jahren

Durchsatz für HPC-Spitzenanwendungen

9-mal mehr HPC-Leistung in 4 Jahren

High-Performance Computing

To unlock next-generation discoveries, scientists look to simulations to better understand complex molecules for drug discovery, physics for potential new sources of energy, and atmospheric data to better predict and prepare for extreme weather patterns.

A100 introduces double-precision Tensor Cores, providing the biggest milestone since the introduction of double-precision computing in GPUs for HPC. This enables researchers to reduce a 10-hour, double-precision simulation running on NVIDIA V100 Tensor Core GPUs to just four hours on A100. HPC applications can also leverage A100’s Tensor Cores to achieve up to 10X more throughput for single-precision matrix multiply operations.

Leistungsstarke Datenanalyse

Kunden müssen dazu in der Lage sein, umfangreiche Datensätze zu analysieren, zu visualisieren und zu Erkenntnissen zu machen. Doch Skalierungslösungen sind oft festgefahren, da diese Datensätze auf mehrere Server verteilt sind.

Beschleunigte Server mit A100 liefern die benötigte Rechenleistung – zusammen mit 1,6 Terabyte pro Sekunde (TB/s) Speicherbandbreite sowie Skalierbarkeit mit NVLink und NVSwitch der dritten Generation –, um diese gewaltigen Workloads zu bewältigen. In Kombination mit Mellanox InfiniBand, dem Magnum IO SDK, GPU-beschleunigtem Spark 3.0 und NVIDIA RAPIDS, einer Software-Suite für GPU-beschleunigte Datenanalyse, ist die NVIDIA-Rechenzentrumsplattform auf einzigartige Weise in der Lage, diese enormen Arbeitslasten mit beispielloser Leistung und Effizienz zu beschleunigen.

Datenanalysen

7-mal höherer Inferenz-Durchsatz mit Mehr-Instanzen-Grafikprozessor (MIG)

BERT Schnelle Inferenz

7-mal höherer Inferenz-Durchsatz mit Mehr-Instanzen-Grafikprozessor (MIG)

Unternehmensfähige Auslastung

A100 mit Multi-Instance-GPU (MIG) maximiert die Nutzung von grafikprozessorbeschleunigter Infrastruktur wie nie zuvor. Mit MIG lässt sich ein A100-Grafikprozessor sicher in bis zu sieben separate Instanzen einteilen, wodurch mehrere Benutzer Zugriff auf die GPU-Beschleunigung für ihre Anwendungen und Entwicklungsprojekte erhalten. Darüber hinaus können Rechenzentrumsadministratoren die Verwaltungs- und Betriebsvorteile der Hypervisor-basierten Servervirtualisierung auf MIG-Instanzen mit dem virtuellen NVIDIA-Compute-Server (vCS) erhalten. Mit MIG können Infrastrukturmanager GPU-Ressourcen mit größerer Granularität bereitstellen, um Entwicklern die richtige Menge an Rechenleistung zur Verfügung zu stellen und die optimale Nutzung aller ihrer GPU-Ressourcen sicherzustellen.

GPUs für Rechenzentren

NVIDIA A100 für HGX

NVIDIA A100 für HGX

Ultimative Leistung für alle Workloads.

NVIDIA A100 für PCIe

NVIDIA A100 für PCIe

Höchste Vielseitigkeit für alle Workloads.

Technische Daten

  NVIDIA A100 für HGX NVIDIA A100 für PCIe
Peak FP64 9.7 TF 9.7 TF
Peak FP64 Tensor Core 19.5 TF 19.5 TF
Peak FP32 19.5 TF 19.5 TF
Peak TF32 Tensor Core 156 TF | 312 TF* 156 TF | 312 TF*
Peak BFLOAT16 Tensor Core 312 TF | 624 TF* 312 TF | 624 TF*
Peak FP16 Tensor Core 312 TF | 624 TF* 312 TF | 624 TF*
Peak INT8 Tensor Core 624 TOPS | 1,248 TOPS* 624 TOPS | 1,248 TOPS*
Peak INT4 Tensor Core 1,248 TOPS | 2,496 TOPS* 1,248 TOPS | 2,496 TOPS*
Grafikprozessorspeicher 40 GB 40 GB
GPU-Speicherbandbreite 1,555 GB/s 1,555 GB/s
Verbindungen NVIDIA NVLink 600 GB/s**
PCIe Gen4 64 GB/s
NVIDIA NVLink 600 GB/s**
PCIe Gen4 64 GB/s
Multi-instance GPUs Verschiedene Instanzgrößen mit bis zu 7 MIG mit 5 GB Verschiedene Instanzgrößen mit bis zu 7 MIG mit 5 GB
Formfaktor 4/8 SXM on NVIDIA HGX A100 PCIe
Max. TDP-Kraft 400W 250W
Leistung von Spitzenapps bereitgestellt 100% 90%
 

Einblicke in die NVIDIA Ampere-Architektur

Erfahren Sie, was bei der NVIDIA Ampere-Architektur und ihrer Implementierung im NVIDIA A100-Grafikprozessor neu ist.