NVIDIA AMPERE-ARCHITEKTUR

Das Herzstück der leistungsstärksten, skalierbarsten Rechenzentren der Welt

DAS HERZSTÜCK VON KI UND HPC IM MODERNEN RECHENZENTRUM

Lösung der weltweit wichtigsten wissenschaftlichen, industriellen und geschäftlichen Herausforderungen mit KI und HPC. Visualisierung komplexer Inhalte, um innovative Produkte zu erstellen, immersive Geschichten zu erzählen und Städte der Zukunft neu zu erfinden. Extrahieren neuer Erkenntnisse aus riesigen Datensätzen. Die NVIDIA Ampere-Architektur, die für die Ära des elastischen Computing entwickelt wurde, stellt sich all diesen Herausforderungen und bietet eine unübertroffene Beschleunigung in jeder Größenordnung.

BAHNBRECHENDE INNOVATIONEN

Die NVIDIA Ampere-Architektur umfasst 54 Milliarden Transistoren und ist der größte 7-Nanometer-(nm-)Chip, der je gebaut wurde. Zudem bietet er sechs bahnbrechende Innovationen.

Tensor-Recheneinheiten der dritten Generation

Mit der ersten Einführung bei der NVIDIA Volta™-Architektur hat die Technologie der NVIDIA Tensor-Recheneinheiten KI drastisch beschleunigt, wodurch die Trainingszeiten von mehreren Wochen auf wenige Stunden gesenkt und die Inferenz massiv beschleunigt wurde. Die NVIDIA Ampere-Architektur baut auf diesen Innovationen auf und ermöglicht neue Präzisionsniveaus – Tensor Float 32 (TF32) und Gleitkomma 64 (FP64) –, um die KI-Akzeptanz zu beschleunigen und zu vereinfachen sowie die Leistung von Tensor-Recheneinheiten auf HPC auszudehnen.

TF32 funktioniert genau wie FP32 und liefert bis zu 20-mal mehr Leistung für KI, ohne dass Code geändert werden muss. Mit NVIDIA Automatic Mixed Precision können Forscher dank automatischer Mixed-Precision und FP16 ihre Leistung zusätzlich verdoppeln und müssen dafür nur einige Codezeilen hinzufügen. Durch Unterstützung von bfloat16, INT8 und INT4 werden Tensor-Recheneinheiten von NVIDIA Tensor-Core-Grafikprozessoren mit Ampere-Architektur zu einem unglaublich vielseitigen Beschleuniger für KI-Training und Inferenz. Mit der Leistung von Tensor-Recheneinheiten für HPC ermöglichen A100- und A30-GPUs zudem Matrixoperationen in vollständiger, IEEE-zertifizierter FP64-Präzision. 

Tensor-Recheneinheiten der dritten Generation
Mehr-Instanzen-Grafikprozessor (MIG)

Mehr-Instanzen-Grafikprozessor (MIG)

Jede KI- und HPC-Anwendung kann von Beschleunigung profitieren, aber nicht jede Anwendung benötigt die Leistung eines ganzen Grafikprozessors. Der Mehr-Instanzen-Grafikprozessor (MIG) ist eine Funktion, die auf A100- und A30-GPUs die gemeinsame Nutzung des Grafikprozessors durch mehrere Workloads ermöglicht. Mit MIG kann jede GPU in mehrere Grafikprozessorinstanzen aufgeteilt werden, die auf Hardwareebene sicher und vollständig isoliert ausgeführt werden und über eigene Speicher-, Cache- und Rechnereinheiten mit hoher Bandbreite verfügen. Entwickler können nun auf bahnbrechende Beschleunigung für alle großen und kleinen Anwendungen zugreifen und garantiert Servicequalität erhalten. Außerdem können IT-Administratoren eine passende Grafikprozessorbeschleunigung für die optimale Auslastung anbieten und den Zugriff auf alle Benutzer und Anwendungen sowohl in Bare-Metal als auch in virtualisierten Umgebungen erweitern.

Strukturelle geringe Dichte

Strukturelle geringe Dichte

Moderne KI-Netzwerke sind groß und werden immer größer – mit Millionen und in einigen Fällen Milliarden von Parametern. Nicht alle dieser Parameter sind für genaue Vorhersagen und Inferenz erforderlich und einige können in Nullen konvertiert werden, sodass die Modelle eine „geringe Dichte“ aufweisen, ohne dass die Genauigkeit beeinträchtigt wird. Tensor-Recheneinheiten können bis zu 2-mal mehr Leistung bei Sparse-Modellen erzielen. Auch wenn das Sparse-Feature der KI-Inferenz dient, kann es auch verwendet werden, um die Leistung des Modelltrainings zu verbessern. 

RT-Recheneinheiten der zweiten Generation

Die RT-Cores der zweiten Generation der NVIDIA Ampere-Architektur in der NVIDIA A40 bieten massive Beschleunigungen für Workloads wie fotorealistisches Rendering von Filminhalten, Architekturdesignbewertungen und virtuelles Prototyping von Produktdesigns. RT-Recheneinheiten beschleunigen zudem das Rendering der Bewegungsunschärfe mit Raytracing für schnellere Ergebnisse mit größerer visueller Genauigkeit und können gleichzeitig Raytracing mit Schattierungen oder Denoising ausführen.

RT-Recheneinheiten der zweiten Generation
 Intelligenterer, schnellerer Speicher

Intelligenterer, schnellerer Speicher

A100 erweitert Rechenzentren um massive Rechenkapazität. Um die volle Auslastung dieser Rechenkapazitäten zu gewährleisten, verfügt sie über eine sensationelle Speicherbandbreite von 2 Terabyte pro Sekunde (TB/s), eine Verdopplung gegenüber der Vorgängergeneration. Außerdem verfügt die A100 über deutlich größeren integrierten Speicher, darunter einen Level-2-Cache mit 40 Megabyte (MB) – das Siebenfache der vorherigen Generation –, um die Rechenleistung zu maximieren.

Optimiert für Scale

NVIDIA GPU und konvergierte Beschleuniger von NVIDIA wurden speziell für die Bereitstellung in großem Maßstab entwickelt und bringen Netzwerke, Sicherheit und geringen Platzbedarf in die Cloud, das Rechenzentrum und die Edge.

Leistungsoptimiert für jeden Server

Die NVIDIA A2 GPU hat den geringsten Platzbedarf im Portfolio und ist für Inferenz-Workloads und Bereitstellungen in Einstiegsservern optimiert, die durch Platz- und Wärmeanforderungen wie 5G-Edge- und Industrieumgebungen eingeschränkt sind. A2 bietet einen Low-Profile-Formfaktor, der bei Low-Power-Energieverbrauch betrieben wird, von einer Thermal Design Power (TDP) von 60 W bis zu 40 W, was ihn ideal für jeden Server macht.

NVIDIA A2 Tensor Core GPU
NVIDIA konvergenter Beschleuniger

Vereinheitlichte Rechenleistung und Netzwerkbeschleunigung

In konvergenten NVIDIA-Beschleunigern werden die NVIDIA Ampere-Architektur und die NVIDIA BlueField®-2 Data Processing Unit (DPU) vereint, um beispiellose Leistung mit verbesserter Sicherheit und Vernetzung für KI-gestützte Workloads in den Bereichen Edge Computing, Telekommunikation und Netzwerksicherheit zu bieten. BlueField-2 kombiniert die Leistung von NVIDIA ConnectX®-6 Dx mit programmierbaren Arm®-Kernen und Hardwareentlastungen für softwaredefinierte Speicher-, Netzwerk-, Sicherheits- und Verwaltungsworkloads. Konvergente Beschleuniger von NVIDIA ermöglichen ein neues Maß an Rechenzentrumseffizienz und -sicherheit für netzwerkintensive, GPU-beschleunigte Workloads.

Für Dichte optimiertes Design

Die NVIDIA A16-GPU  ist in einem Quad-GPU-Board-Design enthalten, das für die Benutzerdichte optimiert ist und in Kombination mit der NVIDIA Virtual PC-Software (vPC) den Zugriff auf virtuelle PCs mit hoher Grafikleistung von jedem Ort aus ermöglicht. Mit NVIDIA A16 können Sie eine höhere Framerate und geringere Endbenutzerlatenz gegenüber einer reinen CPU-VDI gewährleisten, was zu reaktionsschnelleren Anwendungen und einer Benutzererfahrung führt, die von der eines nativen PCs nicht zu unterscheiden ist.

Für Dichte optimiertes Design
Hardware-Root-of-Trust

Sichere Implementierung

Sichere Implementierungen sind für den Geschäftsbetrieb von Unternehmen von entscheidender Bedeutung. Die NVIDIA Ampere-Architektur bietet sicheres Booten durch vertrauenswürdige Codeauthentifizierung und bewährten Rollback-Schutz, um sich vor böswilligen Malware-Angriffen zu schützen, Betriebsverluste zu verhindern und Workloads zu beschleunigen.

Einblick in die NVIDIA Ampere-Architektur

Entdecken Sie die neuesten Technologien der Architektur und die gesamte zugehörige Grafikprozessor-Reihe.