NVIDIA HGX A100

Mit NVIDIA A100-GPUs mit Tensor-Recheneinheiten, NVLink und NVSwitch

Die leistungsstärkste beschleunigte Server-Plattform für KI und High-Performance-Computing

Umfangreiche Datensätze beim maschinellen Lernen, riesige Modelle beim Deep Learning und komplexe Simulationen beim High-Performance-Computing (HPC) erfordern mehrere Grafikprozessoren mit extrem schnellen Verbindungen. NVIDIA HGX A100 kombiniert NVIDIA A100-Grafikprozessoren mit Tensor-Recheneinheiten mit den High-Speed-Verbindungen der neuen NVIDIA® NVLink® und NVSwitch und bildet so die leistungsstärksten Server der Welt. HGX A100 ist ein vollständig getestetes und einfach zu implementierendes Baseboard, das sich in Partnerserver integrieren lässt und garantierte Leistung bietet.

Unerreichtes beschleunigtes Computing

HGX A100 nutzt die Leistung der Tensor-Recheneinheiten der dritten Generation und bietet mit integriertem Tensor Float 32 (TF32) eine 10-fache Beschleunigung für KI und eine 2,5-fache Beschleunigung für HPC mit FP64. Die NVIDIA HGX A100 4-GPU bietet  FP64 mit fast 80 teraFLOPS für anspruchsvollste HPC-Workloads. Eine NVIDIA HGX A100 8-GPU bietet 5 petaFLOPS FP16-Rechenleistung für Deep Learning, während die HGX A100 mit 16 GPUs atemberaubende 10 petaFLOPS bietet und die weltweit leistungsstärkste, beschleunigte und vertikal skalierbare Server-Plattform für KI und HPC bildet.

NVIDIA HGX A100 (mit 8 A100-Grafikprozessoren)

NVIDIA HGX A100 (mit 8 A100-Grafikprozessoren)

NVIDIA HGX A100 (mit 4 A100-Grafikprozessoren)

NVIDIA HGX A100 (mit 4 A100-Grafikprozessoren)

Mit TF32 für KI-Training vom ersten Moment an bis zu 6-mal höhere Leistung erleben

BERT-Training

nvidia-a100-6x-tf32-ai-training-2c50-d

Deep-Learning-Leistung

Deep-Learning-Modelle nehmen rasant an Größe und Komplexität zu. Das bedeutet, dass KI-Modelle ein System mit viel Speicher, enormer Rechenleistung und High-Speed-Verbindungen benötigen, um eine effiziente Skalierbarkeit zu ermöglichen. Mit der äußerst schnellen All-to-All-GPU-Kommunikation durch den NVIDIA NVSwitch bietet HGX A100 die Leistung für fortschrittlichste KI-Modelle. Eine einzige NVIDIA HGX A100 8-GPU bietet bis zu 6-mal mehr KI-Trainingsleistung und 7-mal mehr KI-Inferenzleistung auf dem fortschrittlichen KI-Model BERT als die Vorgängergeneration der auf NVIDIA Volta basierenden HGX-Systeme.

Leistung des maschinellen Lernens

Modelle des maschinellen Lernens machen das Laden, Umwandeln und Verarbeiten sehr großer Datensätze notwendig, um Erkenntnisse zu erlangen. Mit über einem halben TB vereinheitlichtem Speicher und einer multilateralen Grafikprozessorkommunikation mit NVSwitch verfügt HGX A100 über die Leistung, Berechnungen riesiger Datensätze zu laden und durchzuführen, um schnell handlungsorientierte Erkenntnisse zu erlangen.

Leistung des maschinellen Lernens

9-mal mehr HPC-Leistung in 4 Jahren

Durchsatz für HPC-Spitzenanwendungen​

nvidia-a100-9x-hpc-2c50-d

HPC-Leistung

HPC-Anwendungen erfordern eine Rechenleistung, mit der enorm viele Berechnungen pro Sekunde durchgeführt werden können. Durch die enorme Erhöhung der Rechendichte jedes Server-Knotens wird die Anzahl der erforderlichen Server erheblich reduziert. Dies führt zu großen Kosteneinsparungen und senkt den Platz- und Energiebedarf in Rechenzentren. Für HPC-Simulationen und die damit verbundene hochdimensionale Matrix-Multiplikation muss ein Prozessor Daten aus vielen Umgebungen für die Berechnung abrufen. Eine einzige NVIDIA HGX A100 8-GPU bietet bis zu 6-mal mehr KI-Trainingsleistung und 7-mal mehr KI-Inferenzleistung als die Vorgängergeneration der auf NVIDIA Volta™ basierenden HGX-Systeme.

Die leistungsstärkste End-to-End-Plattform für KI und HPC im Rechenzentrum

Das komplette NVIDIA-Lösungs-Stack für Rechenzentren umfasst Bausteine für Hardware, Netzwerke, Software, Bibliotheken und optimierte KI-Modelle und -Anwendungen von NGC. Sie repräsentiert die leistungsstärkste End-to-End-KI- und HPC-Plattform für Rechenzentren und ermöglicht es Forschern, realistische Ergebnisse zu liefern und Lösungen in der entsprechenden Größenordnung bereitzustellen.

Technische Daten zu HGX A100

HGX A100 ist in einzelnen Hauptplatinen mit vier oder acht A100-Grafikprozessoren erhältlich. Die Konfiguration mit vier Grafikprozessoren ist vollständig mit NVLink verbunden, und die Konfiguration mit acht Grafikprozessoren ist über NVSwitch miteinander verbunden. Zwei 8-GPU HGX A100-Hauptplatinen können auch mit einer NVSwitch-Verbindung kombiniert werden, um einen leistungsstarken Einzelknoten mit 16 Grafikprozessoren zu erstellen.

4-GPU 8-GPU 16-GPU
Grafikprozessoren 4x NVIDIA A100 8x NVIDIA A100 16x NVIDIA A100
KI/HPC-Computing FP64/TF32*/FP16*/INT8* 78TF/1.25PF*/2.5PF*/5POPS* 156TF/2.5PF*/5PF*/10POPS* 312TF/5PF*/10PF*/20POPS*
Arbeitsspeicher 160 GB 320 GB 640 GB
NVIDIA NVLink 3. Generation 3. Generation 3. Generation
NVIDIA NVSwitch N/A 2. Generation 2. Generation
NVIDIA NVSwitch-Bandbreite für Verbindungen zwischen GPUs N/A 600 GB/s 600 GB/s
Gesamte aggregierte Bandbreite 2,4 TB/s 4,8 TB/s 9,6 TB/s

Referenzarchitekturen HGX-1 und HGX-2

Mit NVIDIA-Grafikprozessoren und NVLINK

NVIDIA HGX-1 und HGX-2 sind Referenzarchitekturen, die das Design von Rechenzentren standardisieren und so KI und HPC beschleunigen. Mit NVIDIA SXM2 V100-Boards und NVIDIA NVLink- sowie NVSwitch-Verbindungstechnologien, verfügen HGX Referenzarchitekturen über ein modulares Design, das problemlos in Hyperscale- und Hybrid-Rechenzentren funktioniert, um bis zu 2 petaFLOPS Rechenleistung für schnelle und einfache KI und HPC zu bieten.

Mit NVIDIA-Grafikprozessoren und NVLINK

Technische Daten

8-GPU
HGX-1 
16-GPU
NVIDIA HGX-2 zu informieren 
Grafikprozessoren 8x NVIDIA V100 16x NVIDIA V100
KI-Rechenleistung 1 petaFLOPS (FP16) 2 petaFLOPS (FP16)
Arbeitsspeicher 256 GB 512 GB
NVLink 2. Generation 2. Generation
NVSwitch N/A Ja
NVSwitch-Bandbreite für Verbindungen zwischen GPUs N/A 300 GB/s
Gesamte aggregierte Bandbreite 2,4 TB/s 4,8 TB/s

Einblick in die NVIDIA Ampere-Architektur

Lesen Sie diese technische Abhandlung und erfahren Sie, was bei der NVIDIA Ampere-Architektur und ihrer Implementierung im NVIDIA A100-Grafikprozessor neu ist.