NVIDIA AMPERE-ARCHITEKTUR

Das Herzstück der leistungsstärksten, skalierbarsten Rechenzentren der Welt

DAS HERZSTÜCK VON KI UND HPC IM MODERNEN RECHENZENTRUM

Wissenschaftler, Forscher und Ingenieure arbeiten daran, die wichtigsten Herausforderungen in den Bereichen Wissenschaft, Industrie und Big Data mit KI und High-Performance-Computing (HPC) zu lösen. Gleichzeitig versuchen Unternehmen mit der Leistung von KI aus riesigen Datensätzen neue Erkenntnisse zu gewinnen – sowohl lokal als auch in der Cloud. Die NVIDIA Ampere-Architektur wurde für das Zeitalter elastischen Computings entwickelt. Sie bietet den nächsten gewaltigen Computing-Fortschritt und stellt in jeder Größenordnung unvergleichliche Beschleunigung bereit.

BAHNBRECHENDE INNOVATIONEN

Die NVIDIA Ampere-Architektur umfasst 54 Milliarden Transistoren und ist der größte 7-Nanometer-(nm-)Chip, der je gebaut wurde. Zudem bietet er sechs bahnbrechende Innovationen.

Tensor-Recheneinheiten der dritten Generation

Mit der ersten Einführung bei der NVIDIA Volta™-Architektur hat die Technologie der NVIDIA Tensor-Recheneinheiten KI drastisch beschleunigt, wodurch die Trainingszeiten von mehreren Wochen auf wenige Stunden gesenkt und die Inferenz massiv beschleunigt wurde. Die NVIDIA Ampere-Architektur baut auf diesen Innovationen auf und ermöglicht neue Präzisionsniveaus – Tensor Float 32 (TF32) und Gleitkomma 64 (FP64) –, um die KI-Akzeptanz zu beschleunigen und zu vereinfachen sowie die Leistung von Tensor-Recheneinheiten auf HPC auszudehnen.

TF32 funktioniert genau wie FP32 und liefert bis zu 20-mal mehr Leistung für KI, ohne dass Code geändert werden muss. Mit NVIDIA Automatic Mixed Precision können Forscher dank automatischer Mixed-Precision und FP16 ihre Leistung zusätzlich verdoppeln und müssen dafür nur einige Codezeilen hinzufügen. Durch Unterstützung von bfloat16, INT8 und INT4 werden Tensor-Recheneinheiten von NVIDIA Tensor-Core-Grafikprozessoren mit Ampere-Architektur zu einem unglaublich vielseitigen Beschleuniger für KI-Training und Inferenz. Mit der Leistung von Tensor-Recheneinheiten für HPC ermöglichen A100- und A30-GPUs zudem Matrixoperationen in vollständiger, IEEE-zertifizierter FP64-Präzision. 

Tensor-Recheneinheiten der dritten Generation
Mehr-Instanzen-Grafikprozessor (MIG)

Mehr-Instanzen-Grafikprozessor (MIG)

Jede KI- und HPC-Anwendung kann von Beschleunigung profitieren, aber nicht jede Anwendung benötigt die Leistung eines ganzen Grafikprozessors. Der Mehr-Instanzen-Grafikprozessor (MIG) ist eine Funktion, die auf A100- und A30-GPUs die gemeinsame Nutzung des Grafikprozessors durch mehrere Workloads ermöglicht. Mit MIG kann jede GPU in mehrere Grafikprozessorinstanzen aufgeteilt werden, die auf Hardwareebene sicher und vollständig isoliert ausgeführt werden und über eigene Speicher-, Cache- und Rechnereinheiten mit hoher Bandbreite verfügen. Entwickler können nun auf bahnbrechende Beschleunigung für alle großen und kleinen Anwendungen zugreifen und garantiert Servicequalität erhalten. Außerdem können IT-Administratoren eine passende Grafikprozessorbeschleunigung für die optimale Auslastung anbieten und den Zugriff auf alle Benutzer und Anwendungen sowohl in Bare-Metal als auch in virtualisierten Umgebungen erweitern.

Strukturelle geringe Dichte

Strukturelle geringe Dichte

Moderne KI-Netzwerke sind groß und werden immer größer – mit Millionen und in einigen Fällen Milliarden von Parametern. Nicht alle dieser Parameter sind für genaue Vorhersagen und Inferenz erforderlich und einige können in Nullen konvertiert werden, sodass die Modelle eine „geringe Dichte“ aufweisen, ohne dass die Genauigkeit beeinträchtigt wird. Tensor-Recheneinheiten können bis zu 2-mal mehr Leistung bei Sparse-Modellen erzielen. Auch wenn das Sparse-Feature der KI-Inferenz dient, kann es auch verwendet werden, um die Leistung des Modelltrainings zu verbessern. 

RT-Recheneinheiten der zweiten Generation

Die RT-Recheneinheiten der zweiten Generation der NVIDIA Ampere-Architektur in NVIDIA A40- und A10-GPUs steigern die Geschwindigkeit von Workloads wie dem fotorealistischen Rendering von Filminhalten, der Beurteilung architektonischer Designs und dem virtuellen Prototyping von Produktdesigns enorm. RT-Recheneinheiten beschleunigen zudem das Rendering der Bewegungsunschärfe mit Raytracing, für schnellere Ergebnisse mit größerer visueller Genauigkeit, und können gleichzeitig Raytracing mit Schattierungen oder Denoising ausführen.

RT-Recheneinheiten der zweiten Generation
 Intelligenterer, schnellerer Speicher

Intelligenterer, schnellerer Speicher

A100 erweitert Rechenzentren um massive Rechenkapazität. Um die volle Auslastung dieser Rechenkapazitäten zu gewährleisten, verfügt sie über eine sensationelle Speicherbandbreite von 2 Terabyte pro Sekunde (TB/s), eine Verdopplung gegenüber der Vorgängergeneration. Außerdem verfügt die A100 über deutlich größeren integrierten Speicher, darunter einen Level-2-Cache mit 40 Megabyte (MB) – das Siebenfache der vorherigen Generation –, um die Rechenleistung zu maximieren.

Konvergierte Beschleunigung an der Peripherie

Die Kombination der NVIDIA Ampere-Architektur mit NVIDIA BlueField®-2 Datenverarbeitungseinheiten (DPU) in konvergierten Beschleunigern von NVIDIA bietet eine beispiellose Rechen- und Netzwerkbeschleunigung zur Verarbeitung der riesigen Datenmengen, die im Rechenzentrum und in der Edge generiert werden. BlueField-2 kombiniert die Leistung des NVIDIA  ConnectX®-6 Dx mit programmierbaren Arm-Kernen und Hardwareentlastungen für softwaredefinierte Speicher-, Netzwerk-, Sicherheits- und Verwaltungsworkloads. Mit konvergierten Beschleunigern von NVIDIA können Kunden datenintensive Edge- und Rechenzentrums-Workloads mit maximaler Sicherheit und Leistung ausführen.

Konvergierte Beschleunigung an der Peripherie
Für Dichte optimiertes Design

Für Dichte optimiertes Design

Die NVIDIA A16-GPU  ist in einem Quad-GPU-Board-Design enthalten, das für die Benutzerdichte optimiert ist und in Kombination mit der NVIDIA Virtual PC-Software (vPC) den Zugriff auf virtuelle PCs mit hoher Grafikleistung von jedem Ort aus ermöglicht. Mit NVIDIA A16 können Sie eine höhere Framerate und geringere Endbenutzerlatenz gegenüber einer reinen CPU-VDI gewährleisten, was zu reaktionsschnelleren Anwendungen und einer Benutzererfahrung führt, die von der eines nativen PCs nicht zu unterscheiden ist.

Einblick in die NVIDIA Ampere-Architektur

Entdecken Sie die neuesten Technologien der Architektur und die gesamte zugehörige Grafikprozessor-Reihe.