NVIDIA Hopper-Architektur

Die neue Engine für die KI-Infrastruktur der Welt macht bei der Leistung einen Quantensprung um eine Größenordnung.

Die Plattform für beschleunigte Berechnungen für Workloads der nächsten Generation

Mit der NVIDIA Hopper-Architektur machen Sie den nächsten gewaltigen Schritt in Sachen beschleunigtes Computing. Mit der Fähigkeit, verschiedene Workloads in jedem Rechenzentrum sicher zu skalieren – von kleinen Unternehmen bis hin zu Exascale-HPC (High Performance Computing) und KI mit Billionen Parametern – ermöglicht es Hopper innovativen Genies, ihr Lebenswerk schneller denn je zu verwirklichen.

Technologische Durchbrüche

Hopper verfügt über 80 Milliarden Transistoren und nutzt einen hochmodernen TSMC 4N-Prozess. Die Architektur nutzt auf dem NVIDIA H100 Tensor-Core-Grafikprozessor fünf bahnbrechende Innovationen, die gemeinsam eine 30-fache Beschleunigung gegenüber der Vorgängergeneration bei KI-Inferenz mit dem Megatron 530B Chatbot von NVIDIA ermöglichen, dem umfangreichsten generativen Sprachmodell der Welt.

Transformer Engine

Transformer-Engine

Die NVIDIA Hopper-Architektur erweitert die Tensor-Core-Technologie mit der Transformer-Engine für die Beschleunigung des Trainings von KI-Modellen. Hopper-Tensor-Recheneinheiten sind in der Lage, gemischte FP8- und FP16-Präzisionen anzuwenden, um KI-Berechnungen für Transformer erheblich zu beschleunigen. Hopper verdreifacht außerdem die Gleitkommaoperationen pro Sekunde (FLOPS) für TF32-, FP64-, FP16- und INT8-Precisions gegenüber der Vorgängergeneration. In Kombination mit der Transformer-Engine und NVIDIA® NVLink® der vierten Generation ermöglichen Hopper-Tensor-Recheneinheiten eine gewaltige Beschleunigung von HPC- und KI-Workloads.

NVLink-Netzwerk

Um mit der Geschäftsgeschwindigkeit Schritt halten zu können und Beschleunigung in großem Maßstab zu ermöglichen, benötigen Exascale-HPC- und KI-Modelle mit Billionen-Parametern nahtlose Hochgeschwindigkeitskommunikation zwischen allen Grafikprozessoren in einem Servercluster.

Die vierte Generation von NVLink ist eine Scale-up-Verbindung. In Kombination mit dem neuen externen NVLink Switch erlaubt das NVLink-Netzwerk jetzt die Skalierung von Mehr-Grafikprozessoren-IO über mehrere Server bei bidirektionalen 900 Gigabyte/Sekunde pro Grafikprozessor – mehr als die 7-fache Bandbreite von PCIe der 5. Generation. Das NVLink-Netzwerk unterstützt Cluster mit bis zu 256 verbundenen H100 und bietet eine 9-mal höhere Bandbreite als InfiniBand HDR auf Ampere.

Darüber hinaus unterstützt NVLink jetzt netzwerkinternes „SHARP“-Computing, das bisher nur auf Infiniband verfügbar war, und bietet eine unglaubliche FP8-Sparsity-KI-Rechenleistung von einem exaFLOP bei einer All2All-Bandbreite von 57,6 Terabyte/Sekunde.

NVLink Switch System
NVIDIA Confidential Computing

NVIDIA Confidential Computing

Während die Daten bei Lagerung und während der Übertragung durch das Netzwerk verschlüsselt werden, sind sie während der Verarbeitung ungeschützt. Confidential Computing schließt diese Lücke, indem es Daten und Anwendungen während ihrer Verarbeitung schützt. Die NVIDIA Hopper-Architektur ist die weltweit erste Plattform für beschleunigtes Computing, die Confidential Computing unterstützt.

Die starke hardwarebasierte Sicherheit gibt Benutzern bei der Ausführung von Anwendungen vor Ort, in der Cloud oder in der Peripherie die Gewissheit, dass Unbefugte Anwendungscode und Daten nicht während deren Verwendung anzeigen oder ändern können. Dies schützt die Vertraulichkeit und Integrität von Daten und Anwendungen und ermöglicht gleichzeitig die Nutzung der beispiellosen Beschleunigung der H100-Grafikprozessoren für KI-Training, KI-Inferenz und HPC-Workloads.

MIG der zweiten Generation

Ein Mehr-Instanzen-Grafikprozessor (MIG) kann in mehrere kleinere, vollständig isolierte Instanzen mit eigenem Speicher, Cache und Recheneinheiten aufgeteilt werden. Die Hopper-Architektur verbessert MIG noch weiter und unterstützt mandantenfähige Multi-User-Konfigurationen in virtualisierten Umgebungen für bis zu sieben Grafikprozessorinstanzen, wobei jede Instanz durch Confidential Computing sicher auf Hardware- und Hypervisorebene isoliert ist. Dedizierte Videodecoder für jede MIG-Instanz erlauben intelligente Videoanalysen (IVA) mit hohem Durchsatz auf gemeinsam genutzter Infrastruktur. Mit dem gleichzeitigen MIG-Profiling von Hopper können Administratoren die korrekt dimensionierte Grafikprozessorbeschleunigung überwachen und die Ressourcenzuweisung für Benutzer optimieren.

Forscher mit kleineren Workloads können anstelle einer vollständigen CSP-Instanz MIG verwenden, um einen Teil eines Grafikprozessors sicher zu isolieren, und sich dabei darauf verlassen, dass ihre Daten bei Lagerung, Übertragung und Verarbeitung geschützt sind.

Second-Generation MIG
DPX Instructions

DPX-Anweisungen

Dynamische Programmierung ist eine algorithmische Technik für die Lösung komplexer rekursiver Probleme, bei der diese in einfachere Unterprobleme aufgebrochen werden. Durch das Speichern der Ergebnisse von Teilproblemen, die somit später nicht mehr neu berechnet werden müssen, verringern sich Zeit und Komplexität exponentieller Problemlösungen. Dynamische Programmierung findet bei einer Vielzahl von Anwendungsfällen häufig Verwendung.  Floyd-Warshall ist beispielsweise ein Routenoptimierungsalgorithmus für die Planung der kürzesten Routen für Versand- und Lieferflotten. Der Smith-Waterman-Algorithmus wird für DNA-Sequenzausrichtungs- und Proteinfaltungsanwendungen verwendet.

Die DPX-Anweisungen von Hopper ermöglichen eine 40-fache Beschleunigung von Algorithmen mit dynamischer Programmierung gegenüber herkömmlichen Dual-Socket-CPU-Servern und eine 7-fache Beschleunigung gegenüber Grafikprozessoren der Ampere-Architektur. So können Krankheitsdiagnosen, Routenoptimierungen und sogar Diagrammanalysen erheblich schneller erzielt werden.

Vorläufige Spezifikationen, Änderungen möglich.

Tiefer Einblick in die NVIDIA Hopper-Architektur