NVIDIA Ampere-Architektur

Das Herzstück der leistungsstärksten, skalierbarsten Rechenzentren der Welt

Das Herzstück von KI und HPC im modernen Rechenzentrum

Wissenschaftler, Forscher und Ingenieure – die da Vincis und Einsteins unserer Zeit – arbeiten daran, die wichtigsten Herausforderungen in den Bereichen Wissenschaft, Industrie und Big Data mit KI und High-Performance-Computing (HPC) zu lösen. Die NVIDIA Ampere-Architektur wurde für das Zeitalter des elastischen Computing entwickelt und bietet den nächsten gewaltigen Computing-Fortschritt, indem sie in jeder Größenordnung eine unvergleichliche Beschleunigung bereitstellt, die es diesen Innovatoren ermöglicht, ihr Lebenswerk zu erledigen.

Bahnbrechende Innovationen

NVIDIA Ampere umfasst 54 Milliarden Transistoren und ist der größte 7-Nanometer-(nm-)Chip, der je gebaut wurde. Zudem bietet er fünf bahnbrechende Innovationen.

Third-Generation Tensor Cores

Tensor-Recheneinheiten der dritten Generation

Mit der ersten Einführung in der NVIDIA Volta-Architektur hat die NVIDIA Tensor Recheneinheit-Technologie KI drastisch beschleunigt, wodurch die Trainingszeiten von mehreren Wochen auf wenige Stunden gesenkt und die Inferenz massiv beschleunigt wurde. Die NVIDIA Ampere-Architektur baut auf diesen Innovationen auf und ermöglicht neue Präzisionsniveaus – Tensor Float (TF32) und Gleitkomma 64 (FP64) –, um die KI-Akzeptanz zu beschleunigen und zu vereinfachen und die Leistung von Tensor-Recheneinheiten auf HPC auszudehnen.

TF32 funktioniert genau wie FP32 und liefert bis zu 10-mal mehr Leistung für KI, ohne dass Code geändert werden muss. Mit automatischer Mixed-Precision von NVIDIAkönnen Forscher mit nur einer zusätzlichen Codezeile noch einmal die 2-fache Leistung erzielen. Mit der Unterstützung von bfloat16, INT8 und INT4 bieten Tensor-Recheneinheiten in NVIDIA A100 Tensor Core Grafikprozessoren einen unglaublich vielseitigen Beschleuniger für KI-Training und Inferenz. Mit der Leistung von Tensor-Recheneinheiten für HPC ermöglicht A100 auch Matrixoperationen in vollständiger, IEEE-zertifizierter FP64-Präzision.

Mehr-Instanzen-Grafikprozessor (MIG)

Jede KI- und HPC-Anwendung kann von Beschleunigung profitieren, aber nicht jede Anwendung benötigt die Leistung eines vollständigen A100-Grafikprozessors. Mit MIG kann jeder A100 in bis zu sieben Grafikprozessorinstanzen aufgeteilt werden, die auf Hardwareebene sicher und vollständig isoliert ausgeführt werden und über eigene Speicher-, Cache- und Rechnereinheiten mit hoher Bandbreite verfügen. Entwickler können nun auf bahnbrechende Beschleunigung für alle großen und kleinen Anwendungen zugreifen und garantierte Servicequalität erhalten. Außerdem können IT-Administratoren eine passende Grafikprozessorbeschleunigung für die optimale Auslastung anbieten und den Zugriff auf alle Benutzer und Anwendungen sowohl in Bare-Metal als auch in virtualisierten Umgebungen erweitern.

Multi-Instance GPU (MIG)

Strukturelle geringe Dichte

Moderne KI-Netzwerke sind groß und werden immer größer – mit Millionen und in einigen Fällen Milliarden von Parametern. Nicht alle dieser Parameter sind für genaue Vorhersagen und Inferenz erforderlich und einige können in Nullen konvertiert werden, sodass die Modelle eine „geringe Dichte“ aufweisen, ohne dass die Genauigkeit beeinträchtigt wird. Tensor Cores in A100 können bis zu 2X mehr Leistung bei Sparse-Modellen erzielen. Auch wenn das Sparse-Feature der KI-Inferenz dient, kann es auch verwendet werden, um die Leistung des Modelltrainings zu verbessern.

Structural Sparsity
Smarter and Faster Memory

Intelligenterer, schnellerer Speicher

A100 erweitert Rechenzentren um massive Rechenkapazitäten. Um die volle Auslastung dieser Rechenkapazitäten zu gewährleisten, verfügt die A100 über eine sensationelle Speicherbandbreite von 1,5 Terabyte pro Sekunde (TB/s), ein Anstieg um 67 Prozent gegenüber der Vorgängergeneration. Außerdem verfügt die A100 über deutlich größeren integrierten Speicher, darunter einen Level-2-Cache mit 40 Megabyte (MB) – das Siebenfache der vorherigen Generation –, um die Rechenleistung zu maximieren.

Konvergierte Beschleunigung an der Peripherie

Die Kombination der NVIDIA Ampere-Architektur mit dem ConnectX-6 Dx SmartNIC von Mellanox im NVIDIA EGX™ A100 bietet beispiellose Möglichkeiten zur Rechen- und Netzwerkbeschleunigung, um die riesigen Datenmengen zu verarbeiten, die an der Peripherie generiert werden. Der Mellanox SmartNIC umfasst Sicherheitsauslagerungen zur Entschlüsselung mit Leitungsraten von bis zu 200 Gigabit pro Sekunde (GB/s) und die GPUDirect™ überträgt Videobilder direkt zur KI-Verarbeitung an den Speicher des Grafikprozessors. Mit der EGX A100 können Unternehmen die KI-Bereitstellung an der Peripherie sicherer und effizienter beschleunigen.

Konvergierte Beschleunigung an der Peripherie

Einblicke in die NVIDIA Ampere-Architektur

Lernen Sie in diesem Webinar die Neuheiten der NVIDIA Ampere-Architektur sowie ihre Implementierung in den NVIDIA A100-Grafikprozessor kennen.