NVIDIA HGX A100

Die leistungsstärkste durchgängige Plattform für KI-Supercomputing.

Speziell für die Konvergenz von Simulationen, Datenanalysen und KI entwickelt.

Massive Datensätze, riesige Modelle beim Deep Learning und komplexe Simulationen erfordern mehrere Grafikprozessoren mit extrem schnellen Verbindungen. Die NVIDIA HGX-Plattform vereint die volle Leistung von NVIDIA-Grafikprozessoren, NVIDIA® NVLink®, NVIDIA Mellanox® Infiniband®-Netzwerken und einen vollständig optimierten NVIDIA KI- und HPC-Softwarestack von NGC™ für höchste Anwendungsleistung. Dank der durchgängigen Leistung und Flexibilität ermöglicht es NVIDIA HGX Forschern und Wissenschaftlern, Simulationen, Datenanalysen und KI zu kombinieren, um wissenschaftlichen Fortschritt voranzutreiben.

Unerreichte Plattform für beschleunigtes Computing

NVIDIA HGX A100 stellen mit NVIDIA A100 Tensor-Core-GPUs und Hochgeschwindigkeitsverbindungen die leistungsstärksten Server der Welt dar. Dank A100 80 GB-GPUs bietet eine einzige HGX A100 bis zu 1,3 Terabyte (TB) Grafikspeicher und eine Speicherbandbreite von über 2 Terabyte pro Sekunde (Tb/s) und erzielt somit nie dagewesene Beschleunigung.

Die HGX A100 bietet mit Tensor Foat 32 (TF32) bis zu 20-fache KI-Beschleunigung im Vergleich zu Vorgängergenerationen und für HPC eine 2,5-fache Beschleunigung mit FP64. Die HGX A100 wurde umfassend getestet und ist einfach bereitzustellen. Sie wird für garantierte Leistung mit Partnerservern integriert. Mit 16 Grafikprozessoren leistet die NVIDIA HGX A100 atemberaubende 10 PetaFLOPS und ist somit die leistungsstärkste beschleunigte und vertikal skalierbare Serverplattform für KI und HPC.

NVIDIA HGX A100 (mit 8 A100-Grafikprozessoren)

NVIDIA HGX A100 (mit 8 A100-Grafikprozessoren)

NVIDIA HGX A100 (mit 4 A100-Grafikprozessoren)

NVIDIA HGX A100 (mit 4 A100-Grafikprozessoren)

Deep-Learning-Leistung

Leistung des maschinellen Lernens

Bis zu 83-mal schneller als auf CPU, 2-mal schneller als A100 40 GB im Big Data Analytics-Benchmark

Bis zu 83-mal schneller als auf CPU, 2-mal schneller als A100 40 GB im Big Data Analytics-Benchmark

Modelle für maschinelles Lernen erfordern das Laden, Umwandeln und Verarbeiten sehr großer Datensätze, um Erkenntnisse zu erlangen. Mit über 1,3 TB vereinheitlichtem Speicher und der multilateralen GPU-Kommunikation über NVSwitch verfügt HGX A100 80 GB über die Leistung, Berechnungen riesiger Datensätze zu laden und durchzuführen, um schnell handlungsorientierte Erkenntnisse zu erlangen.

In einem großen Datenanalyse-Benchmark erzielte die A100 80 GB mit 83x höherem Durchsatz Erkenntnisse als CPUs und 2-fach höhere Leistung als die A100 40 GB, womit sie ideal für zunehmende Workloads mit stetig wachsenden Datensätzen ist.

HPC-Leistung

HPC-Anwendungen müssen jede Sekunde enorme Mengen an Berechnungen durchführen. Durch die drastische Erhöhung der Rechendichte jedes Server-Knotens wird die Anzahl der erforderlichen Server erheblich reduziert. Dies führt zu großen Kosteneinsparungen und senkt den Platz- und Energiebedarf in Rechenzentren. Für HPC-Simulationen und die damit verbundene hochdimensionale Matrix-Multiplikation muss ein Prozessor Daten aus vielen Umgebungen für die Berechnung abrufen. Daher ist die Verbindung der Grafikprozessoren durch NVLink ideal. HPC-Anwendungen können auch TF32 in A100 nutzen und erreichen so in vier Jahren einen bis zu 11-mal höheren Durchsatz bei dichten Matrixmultiplikationsaufgaben mit einfacher Genauigkeit

Eine HGX A100 mit A100 80 GB-GPUs bietet eine zweifache Durchsatzsteigerung gegenüber A100 40 GB-GPUs in Quantum Espresso, einer Materialsimulation, und führt so zu schnellerem Erkenntnisgewinn.

11-mal mehr Leistung bei HPC in vier Jahren

Führende HPC-Anwendungen

11-mal mehr Leistung bei HPC  in vier Jahren

Bis zu 1,8-mal schnellere Leistung für HPC-Anwendungen

Quantum Espresso​

Bis zu 1,8-mal schnellere Leistung  für HPC-Anwendungen

Technische Daten zu HGX A100

HGX A100 ist in einzelnen Hauptplatinen mit vier oder acht A100-Grafikprozessoren erhältlich. Die Konfiguration mit vier Grafikprozessoren ist vollständig mit NVLink verbunden, und die Konfiguration mit acht Grafikprozessoren ist über NVSwitch miteinander verbunden. Zwei 8-GPU HGX A100-Hauptplatinen können auch mit einer NVSwitch-Verbindung kombiniert werden, um einen leistungsstarken Einzelknoten mit 16 Grafikprozessoren zu erstellen.

4-GPU 8-GPU 16-GPU
Grafikprozessoren 4x NVIDIA A100 8x NVIDIA A100 16x NVIDIA A100
KI/HPC-Computing FP64/TF32*/FP16*/INT8* 78TF/1.25PF*/2.5PF*/5POPS* 156TF/2.5PF*/5PF*/10POPS* 312TF/5PF*/10PF*/20POPS*
Arbeitsspeicher Bis zu 320 GB Bis zu 640 GB Bis zu 1.280 GB
NVIDIA NVLink 3. Generation 3. Generation 3. Generation
NVIDIA NVSwitch N/A 2. Generation 2. Generation
NVIDIA NVSwitch-Bandbreite für Verbindungen zwischen GPUs N/A 600 GB/s 600 GB/s
Gesamte aggregierte Bandbreite 2,4 TB/s 4,8 TB/s 9,6 TB/s

Referenzarchitekturen HGX-1 und HGX-2

Mit NVIDIA-Grafikprozessoren und NVLINK

NVIDIA HGX-1 und HGX-2 sind Referenzarchitekturen, die das Design von Rechenzentren standardisieren und so KI und HPC beschleunigen. Mit NVIDIA SXM2 V100-Boards und NVIDIA NVLink- sowie NVSwitch-Verbindungstechnologien, verfügen HGX Referenzarchitekturen über ein modulares Design, das problemlos in Hyperscale- und Hybrid-Rechenzentren funktioniert, um bis zu 2 petaFLOPS Rechenleistung für schnelle und einfache KI und HPC zu bieten.

Mit NVIDIA-Grafikprozessoren und NVLINK

Technische Daten

8-GPU
HGX-1 
16-GPU
NVIDIA HGX-2 zu informieren 
Grafikprozessoren 8x NVIDIA V100 16x NVIDIA V100
KI-Rechenleistung 1 petaFLOPS (FP16) 2 petaFLOPS (FP16)
Arbeitsspeicher 256 GB 512 GB
NVLink 2. Generation 2. Generation
NVSwitch N/A Ja
NVSwitch-Bandbreite für Verbindungen zwischen GPUs N/A 300 GB/s
Gesamte aggregierte Bandbreite 2,4 TB/s 4,8 TB/s

Einblick in die NVIDIA Ampere-Architektur

Lesen Sie diese technische Abhandlung und erfahren Sie, was bei der NVIDIA Ampere-Architektur und ihrer Implementierung im NVIDIA A100-Grafikprozessor neu ist.