This site requires Javascript in order to view all its content. Please enable Javascript in order to access all the functionality of this web site. Here are the instructions how to enable JavaScript in your web browser.

NVIDIA A100 Tensor Core-GPU

Nie dagewesene Beschleunigung in jeder Größenordnung

Beschleunigung der wichtigsten Arbeit unserer Zeit

Die NVIDIA A100 Tensor Core-GPU bietet nie dagewesene Beschleunigung in jeder Größenordnung für die weltweit leistungsstärksten elastischen Rechenzentren in den Bereichen KI, Datenanalysen und HPC. A100 basiert auf der NVIDIA Ampere-Architektur und ist der zentrale Bestandteil der Rechenzentrumsplattform von NVIDIA. A100 bietet eine bis zu 20-mal höhere Leistung gegenüber der Vorgängergeneration und lässt sich in sieben Grafikprozessorinstanzen partitionieren, um sich dynamisch an veränderliche Anforderungen anzupassen. Die A100 80 GB verwendet erstmals die höchste Speicherbandbreite der Welt mit über 2 Terabyte pro Sekunde (TB/s), um auch die größten Modelle und Datensätze zu bewältigen.

NVIDIA A100-Datenblatt lesen (PDF, 640 KB)

Produktübersicht für NVIDIA A100 80 GB PCIe lesen (PDF, 380 KB)

Produktübersicht für NVIDIA A100 40 GB PCIe lesen (PDF, 332 KB)

Enterprise-fähige Software für KI

Die NVIDIA EGX^™-Plattform umfasst optimierte Software, die beschleunigtes Computing in der gesamten Infrastruktur ermöglicht. NVIDIA AI Enterprise bietet Unternehmen eine Cloud-native End-to-End-Softwaresuite für KI und Datenanalyse, die von NVIDIA für die Ausführung auf VMware vSphere mit NVIDIA-zertifizierten Systemen optimiert, zertifiziert und unterstützt wird. NVIDIA AI Enterprise umfasst wichtige unterstützende Technologien von NVIDIA für die schnelle Bereitstellung, Verwaltung und Skalierung von KI-Workloads in der modernen Hybrid Cloud.

Weitere Infos

Die leistungsstärkste End-to-End-Rechenzentrumsplattform für KI und HPC

A100 ist Teil der kompletten NVIDIA-Lösung für Rechenzentren, die Bausteine für Hardware, Netzwerke, Software, Bibliotheken und optimierte KI-Modelle und -Anwendungen von NGC^™ umfasst. Er repräsentiert die leistungsstärkste End-to-End-KI- und HPC-Plattform für Rechenzentren und ermöglicht es Forschern, realistische Ergebnisse zu liefern und Lösungen in der entsprechenden Größenordnung bereitzustellen.

Video zur Entstehung von Ampere

VIDEO ANSEHEN

Deep-Learning-Training

Bis zu 3-mal schnelleres KI-Training bei den größten Modellen

DLRM-Training

DLRM on HugeCTR framework, precision = FP16 | NVIDIA A100 80GB batch size = 48 | NVIDIA A100 40GB batch size = 32 | NVIDIA V100 32GB batch size = 32.

Die Komplexität von KI-Modellen steigt rapide, um neuen Herausforderungen wie Konversations-KI gerecht zu werden. Ihr Training erfordert enorme Rechenleistung und Skalierbarkeit.

Die Tensor-Recheneinheiten des NVIDIA A100 mit Tensor Float(TF32)-Präzision bieten bis zu 20-mal mehr Leistung gegenüber NVIDIA Volta, erfordern dafür keine Code-Änderungen und bieten einen zusätzlichen 2-fachen Boost mit automatischer gemischter Präzision und FP16. In Kombination mit NVIDIA^® NVLink^®, NVIDIA NVSwitch^™, PCI Gen4, NVIDIA^® Mellanox^® InfiniBand^® und dem NVIDIA Magnum IO^™-SDK ist die Skalierung auf Tausende A100-Grafikprozessoren möglich.

Trainings-Workloads wie BERT können in großem Maßstab mit 2.048 A100-GPUs in unter einer Minute gelöst werden, was einen Weltrekord in der Lösungszeit darstellt.

Bei den größten Modellen mit massiven Datentabellen wie Deep-Learning-Empfehlungsmodellen (Deep Learning Recommendation Models, DLRMs) erreicht der A100 80 GB bis zu 1,3 TB vereinheitlichten Arbeitsspeicher pro Knoten und bietet bis zu 3-mal mehr Durchsatz als der A100 40 GB.

Die Führungsrolle von NVIDIA in MLPerf wurde durch mehrere Leistungsrekorde bei KI-Trainings-Benchmarks in der ganzen Branche gefestigt.

Erfahren Sie mehr über den A100 für das Training

Inferenz für Deep Learning

Mit dem A100 werden bahnbrechende Funktionen zur Optimierung von Inferenzworkloads eingeführt. Er beschleunigt das gesamte Präzisionsspektrum, von FP32 bis INT4. Durch die Mehr-Instanzen-Grafikprozessortechnologie (MIG) können mehrere Netze gleichzeitig auf einer einzelnen A100-GPU ausgeführt werden, um die Rechenressourcen optimal zu nutzen. Zusätzlich zu den anderen Inferenzleistungssteigerungen des A100 bietet die strukturelle Sparsity bis zu 2-mal mehr Leistung.

Für hochmoderne Konversations-KI-Modelle wie BERT bietet der A100 einen bis zu 249-mal schnelleren Inferenzdurchsatz gegenüber CPUs.

Bei den komplexesten Modellen mit beschränkten Batchgrößen, wie RNN-T für automatische Spracherkennung, verdoppelt die erhöhte Speicherkapazität des A100 80GB die Größe jeder MIG und liefert so einen 1,25-mal größeren Durchsatz als der A100 40 GB.

NVIDIA bewies marktführende Leistung bei der Inferenz in MLPerf. Der A100 baut diese Führung mit 20-mal mehr Leistung weiter aus.

Erfahren Sie mehr über den A100 für Inferenz

Bis zu 249-mal höhere Leistung bei KI-Inferenz
gegenüber CPUs

BERT-LARGE-Inferenz

BERT-Large Inference | CPU only: Xeon Gold 6240 @ 2.60 GHz, precision = FP32, batch size = 128 | V100: NVIDIA TensorRT (TRT) 7.2, precision =™ INT8, batch size = 256 | A100 40GB and 80GB, batch size = 256, precision = INT8 mit Sparsity.

Bis zu 1,25-mal höhere Leistung bei KI-Inferenz
gegenüber A100 40 GB

RNN-T-Inferenz: Single Stream

MLPerf 0.7 RNN-T measured with (1/7) MIG slices. Framework: TensorRT 7.2, dataset = LibriSpeech, precision = FP16.

High-Performance Computing

Um Entdeckungen der nächsten Generation zugänglich zu machen, nutzen Wissenschaftler Simulationen, damit wir die Welt um uns herum besser verstehen.

NVIDIA A100 führt Tensor-Recheneinheiten mit doppelter Präzision ein und stellt somit den größten Leistungssprung für HPC seit der Einführung von GPUs dar. In Kombination mit 80 GB des schnellsten Grafikspeichers können Forscher eine vormals 10-stündige Simulation auf A100 mit doppelter Präzision auf weniger als vier Stunden verkürzen. HPC-Anwendungen können zudem TF32 nutzen und erreichen so einen bis zu 11-mal höheren Durchsatz bei dichten Matrixmultiplikationsaufgaben mit einfacher Genauigkeit.

Für die HPC-Anwendungen mit den größten Datensätzen bietet der zusätzliche Speicherplatz der A100 80 GB eine bis zu 2-fache Steigerung des Durchsatzes in Quantum Espresso, einer Materialsimulation. Der enorme Arbeitsspeicher und die unübertroffene Speicherbandbreite machen den A100 80 GB zur idealen Plattform für Workloads der nächsten Generation.

Erfahren Sie mehr über den A100 für HPC

11-mal mehr HPC-Leistung in vier Jahren

Führende HPC-Anwendungen

Geometrisches Mittel der Anwendungsbeschleunigung vs. P100: Benchmark-Anwendung: Amber [PME-Cellulose_NVE], Chroma [szscl21_24_128], GROMACS [ADH Dodec], MILC [Apex Medium], NAMD [stmv_nve_cuda], PyTorch (BERT Schnelle Feinabstimmung], Quantum Espresso [AUSURF112-jR]; Random Forest FP32 [make_blobs (160000 x 64:10)], TensorFlow [ResNet-50], VASP 6 [Si Huge] | Grafikprozessorknoten mit Dual-Sockel-CPUs mit 4x NVIDIA P100-, V100- oder A100-Grafikprozessoren.

Bis zu 1,8-mal höhere Leistung für HPC-Anwendungen

Quantum Espresso

Quantum Espresso measured using CNT10POR8 dataset, precision = FP64.

Leistungsstarke Datenanalyse

Bis zu 83-mal schneller als die CPU, 2-mal schneller als A100 40 GB im Big-Data-Analyse-Benchmark

Big-Data-Analyse-Benchmark | 30 Analysehandelsabfragen, ETL, ML, NLP auf 10-TB-Datensatz | CPU: Intel Xeon Gold 6252 2,10 GHz, Hadoop | V100 32 GB, RAPIDS/Dask | A100 40 GB und A100 80 GB, RAPIDS/Dask/BlazingSQL

Datenwissenschaftler müssen in der Lage sein, umfangreiche Datensätze zu analysieren, zu visualisieren und Erkenntnisse aus ihnen zu gewinnen. Doch Lösungen zur horizontalen Skalierung funktionieren oft nicht optimal, weil Datensätze auf mehreren Servern verteilt sind.

Beschleunigte Server mit A100 liefern die nötige Rechenleistung, um solche Workloads zu bewältigen – zusammen mit einem enormen Arbeitsspeicher, einer Speicherbandbreite von 2 Terabyte pro Sekunde (TB/s) sowie Skalierbarkeit über NVIDIA^® NVLink^® und NVSwitch^™. In Kombination mit InfiniBand, NVIDIA Magnum IO^™ und der RAPIDS^™-Suite an Open-Source-Bibliotheken, einschließlich des RAPIDS Accelerator für Apache Spark für GPU-beschleunigte Datenanalysen, beschleunigt die Rechenzentrumsplattform von NVIDIA diese enormen Workloads mit unübertroffener Leistung und Effizienz.

In einem Big-Data-Analyse-Benchmark lieferte der A100 80 GB Erkenntnisse mit 83-mal höherem Durchsatz als CPUs und eine 2-mal höhere Leistung als der A100 40 GB, womit er ideal für neue Workloads mit immensen Datensätzen geeignet ist.

Weitere Informationen zu Datenanalysen

Unternehmensfähige Auslastung

7-mal höherer Inferenzdurchsatz mit Mehr-Instanzen-Grafikprozessor (MIG)

BERT Große Inferenz

BERT Large Inference | NVIDIA TensorRT™ (TRT) 7.1 | NVIDIA T4 Tensor Core GPU: TRT 7.1, precision = INT8, batch size = 256 | V100: TRT 7.1, precision = FP16, batch size = 256 | A100 with 1 or 7 MIG instances of 1g.5gb: batch size = 94, precision = INT8 mit Sparsity.

A100 mit MIG optimiert die Auslastung GPU-beschleunigter Infrastruktur. Mit MIG lässt sich eine A100-GPU in bis zu sieben unabhängige Instanzen partitionieren, sodass mehrere Nutzer zeitgleich von der GPU-Beschleunigung profitieren können. Beim A100 40 GB können jeder MIG-Instanz bis zu 5 GB zugeteilt werden, durch die erhöhte Speicherkapazität wird dies beim A100 80 GB auf 10 GB verdoppelt.

MIG arbeitet mit Kubernetes, Containern und hypervisorbasierter Servervirtualisierung. MIG ermöglicht es der Infrastrukturverwaltung, jeder Aufgabe eine maßgeschneiderte GPU mit garantierter Servicequalität (QoS) zuzuweisen, wodurch jeder Nutzer Zugang zu den beschleunigten Computing-Ressourcen erhält.

Weitere Informationen zu MIG

Das Beste aus Ihren Systemen herausholen

Ein von NVIDIA zertifiziertes System, bestehend aus A100 und NVIDIA Mellanox SmartnNICs und DPUs wird hinsichtlich Leistung, Funktionalität, Skalierbarkeit und Sicherheit validiert, sodass Unternehmen problemlos Komplettlösungen für KI-Workloads aus dem NVIDIA NGC-Katalog bereitstellen können.

Weitere Infos

GPUs für Rechenzentren

NVIDIA A100 für HGX

Ultimative Leistung für alle Workloads.

NVIDIA A100 für PCIe

Höchstmaß an Vielseitigkeit für alle Workloads.

Technische Daten

	A100 80 GB PCIe	A100 80 GB SXM
FP64	9,7 TFLOPS
FP64-Tensor-Core	19,5 TFLOPS
FP32	19,5 TFLOPS
Tensor Float 32 (TF32)	156 TFLOPS \| 312 TFLOPS*
BFLOAT16-Tensor-Recheneinheit	312 TFLOPS \| 624 TFLOPS*
FP16-Tensor-Recheneinheit	312 TFLOPS \| 624 TFLOPS*
INT8-Tensor-Recheneinheit	624 TOPS \| 1248 TOPS*
GPU-Speicher	80 GB HBM2e	80 GB HBM2e
GPU-Speicherbandbreite	1.935 GB/s	2.039 GB/s
Max. Thermal Design Power (TDP)	300 W	400 W ***
Mehr-Instanzen-GPU	Bis zu 7 MIGs mit 10 GB	Bis zu 7 MIGs mit 10 GB
Formfaktor	PCIe Zwei Steckplätze mit Luftkühlung oder ein Steckplatz mit Flüssigkeitskühlung	SXM
Zusammenschaltung	NVIDIA^® NVLink^®-Brücke für 2 Grafikprozessoren: 600 GB/s ** PCIe Gen4: 64 GB/s	NVLink: 600 GB/s PCIe Gen4: 64 GB/s
Serveroptionen	Partner und NVIDIA-Certified Systeme™ mit 1-8 GPUs	NVIDIA HGX™ A100-Partner und NVIDIA-zertifizierte Systeme mit 4, 8 oder 16 GPUs NVIDIA DGX™ A100 mit 8 GPUs

* Mit Sparsity
** SXM4-GPUs über HGX A100-Serverboards, PCIe-GPUs über NVLink-Brücke für bis zu zwei GPUs
*** 400 W TDP für die Standardkonfiguration. SKU für HGX A100-80-GB-Lösung mit individueller Kühlung (Custom Thermal Solution, CTS) kann TDPs bis zu 500 W unterstützen

Die neuesten MLPerf-Benchmarkdaten lesen

Ergebnisse anzeigen

Einblick in die NVIDIA Ampere-Architektur

Erfahren Sie, was bei der NVIDIA Ampere-Architektur und ihrer Implementierung im NVIDIA A100-Grafikprozessor neu ist.

Whitepaper lesen