NVIDIA Hopper-Architektur

Die Engine für die KI-Infrastruktur der Welt macht bei der Leistung einen Quantensprung um eine Größenordnung.

Die beschleunigte Computing-Plattform für Workloads der nächsten Generation.

Erfahren Sie mehr über den nächsten Durchbruch für beschleunigtes Computing mit der NVIDIA Hopper-Architektur. Hopper erlaubt die sichere Skalierung verschiedenster Workloads in jedem Rechenzentrum, von kleinen Unternehmen bis hin zu Exascale-HPC (High Performance Computing) und KI mit Billionen Parametern – so können innovative Genies ihr Lebenswerk schneller denn je verwirklichen.

Entdecken Sie die technologischen Durchbrüche

Hopper verfügt über 80 Milliarden Transistoren und nutzt einen hochmodernen TSMC 4N-Prozess. Die Architektur nutzt auf den NVIDIA H200-und H100-Tensor-Core-Grafikprozessoren fünf bahnbrechende Innovationen, die gemeinsam eine 30-fache Beschleunigung gegenüber der Vorgängergeneration bei KI-Inferenz mit dem Megatron 530B Chatbot von NVIDIA ermöglichen, dem umfangreichsten generativen Sprachmodell der Welt.

Transformer Engine

Transformer-Engine

Die NVIDIA Hopper-Architektur erweitert die Tensor-Core-Technologie mit der Transformer-Engine für die Beschleunigung des Trainings von KI-Modellen. Hopper-Tensor-Recheneinheiten sind in der Lage, gemischte FP8- und FP16-Präzisionen anzuwenden, um KI-Berechnungen für Transformer erheblich zu beschleunigen. Hopper verdreifacht außerdem die Gleitkommaoperationen pro Sekunde (FLOPS) für TF32-, FP64-, FP16- und INT8-Precisions gegenüber der Vorgängergeneration. In Kombination mit der Transformer-Engine und NVIDIA® NVLink® der vierten Generation ermöglichen Hopper-Tensor-Recheneinheiten eine gewaltige Beschleunigung von HPC- und KI-Workloads.

NVLink, NVSwitch und NVLink-Switch-Systeme

Um mit der Geschäftsgeschwindigkeit Schritt halten zu können und Beschleunigung in großem Maßstab zu ermöglichen, benötigen Exascale-HPC- und KI-Modelle mit Billionen-Parametern nahtlose Hochgeschwindigkeitskommunikation zwischen allen Grafikprozessoren in einem Servercluster.

Mit der vierten Generation von NVLink kann die Eingabe und Ausgabe (IO) mehrerer Grafikprozessoren mit NVIDIA DGX™- und HGX™-Servern mit 900 Gigabyte pro Sekunde (GB/s) bidirektional pro Grafikprozessor skaliert werden, was mehr als der 7-fachen Bandbreite von PCIe Gen5 entspricht.

Der NVIDIA NVSwitch™ der dritten Generation unterstützt das netzwerkinterne Scalable Hierarchical Aggregation and Reduction Protocol (SHARP)™ -Computing, das bisher nur auf Infiniband verfügbar war, und bietet eine 2-fache Steigerung des gesamten Durchsatzes innerhalb von acht H200- oder H100-Grafikkarten-Servern im Vergleich zu vorherigen A100-Tensor-Core-Grafikkarten-Systemen.

DGX GH200-Systeme mit NVLink-Switch-System unterstützen Cluster mit bis zu 256 verbundenen H200 und bieten eine Gesamtbandbreite von 57,6 Terabyte pro Sekunde (TB/s).

NVLink Switch System
NVIDIA Confidential Computing

NVIDIA Confidential Computing

Während die Daten bei Lagerung und während der Übertragung durch das Netzwerk verschlüsselt werden, sind sie während der Verarbeitung ungeschützt. Confidential Computing schließt diese Lücke, indem es Daten und Anwendungen während ihrer Verarbeitung schützt. Die NVIDIA Hopper-Architektur ist die weltweit erste Plattform für beschleunigtes Computing, die Confidential Computing unterstützt.

Die starke hardwarebasierte Sicherheit gibt Benutzern bei der Ausführung von Anwendungen vor Ort, in der Cloud oder in der Peripherie die Gewissheit, dass Unbefugte Anwendungscode und Daten nicht während deren Verwendung anzeigen oder ändern können. Dies schützt die Vertraulichkeit und Integrität von Daten und Anwendungen und ermöglicht gleichzeitig die Nutzung der beispiellosen Beschleunigung der H200- und H100-Grafikprozessoren für KI-Training, KI-Inferenz und HPC-Workloads.

MIG der zweiten Generation

Ein Mehr-Instanzen-Grafikprozessor (MIG) kann in mehrere kleinere, vollständig isolierte Instanzen mit eigenem Speicher, Cache und Recheneinheiten aufgeteilt werden. Die Hopper-Architektur verbessert MIG noch weiter und unterstützt mandantenfähige Multi-User-Konfigurationen in virtualisierten Umgebungen für bis zu sieben Grafikprozessorinstanzen, wobei jede Instanz durch Confidential Computing sicher auf Hardware- und Hypervisorebene isoliert ist. Dedizierte Videodecoder für jede MIG-Instanz erlauben intelligente Videoanalysen (IVA) mit hohem Durchsatz auf gemeinsam genutzter Infrastruktur. Mit dem gleichzeitigen MIG-Profiling von Hopper können Administratoren die korrekt dimensionierte Grafikprozessorbeschleunigung überwachen und die Ressourcenzuweisung für Benutzer optimieren.

Forscher mit kleineren Workloads können anstelle einer vollständigen CSP-Instanz MIG verwenden, um einen Teil eines Grafikprozessors sicher zu isolieren, und sich dabei darauf verlassen, dass ihre Daten bei Lagerung, Übertragung und Verarbeitung geschützt sind.

Second-Generation MIG
DPX Instructions

DPX-Anweisungen

Dynamische Programmierung ist eine algorithmische Technik für die Lösung komplexer rekursiver Probleme, bei der diese in einfachere Unterprobleme aufgebrochen werden. Durch das Speichern der Ergebnisse von Teilproblemen, die somit später nicht mehr neu berechnet werden müssen, verringern sich Zeit und Komplexität exponentieller Problemlösungen. Dynamische Programmierung findet bei einer Vielzahl von Anwendungsfällen häufig Verwendung.  Floyd-Warshall ist beispielsweise ein Routenoptimierungsalgorithmus für die Planung der kürzesten Routen für Versand- und Lieferflotten. Der Smith-Waterman-Algorithmus wird für DNA-Sequenzausrichtungs- und Proteinfaltungsanwendungen verwendet.

Die DPX-Anweisungen von Hopper ermöglichen eine 40-fache Beschleunigung von Algorithmen mit dynamischer Programmierung gegenüber herkömmlichen Dual-Socket-CPU-Servern und eine 7-fache Beschleunigung gegenüber Grafikprozessoren der Ampere-Architektur. So können Krankheitsdiagnosen, Routenoptimierungen und sogar Diagrammanalysen erheblich schneller erzielt werden.

Vorläufige Spezifikationen, Änderungen möglich
DPX-Anleitung: Vergleich zwischen HGX H100 mit 4 GPUs und IceLake mit 32 Kernen

Tiefer Einblick in die NVIDIA Hopper-Architektur