Cloud-natives Supercomputing

Kompromisslose HPC- und KI-Leistung,
Mandantenisolation mit mehreren Knoten und Sicherheit.

Bare-Metal-Performance mit Mandantenisolation

Cloud-natives Supercomputing verbindet die Leistung von High Performance Computing mit der Sicherheit und Benutzerfreundlichkeit von Cloud Computing-Diensten. Die Cloud-native Supercomputing-Plattform von NVIDIA nutzt die Architektur der NVIDIA® BlueField®-Datenverarbeitungseinheit (DPU) mit leistungsstarken und latenzarmen NVIDIA® Mellanox® InfiniBand-Netzwerken, um Bare-Metal-Leistung, Benutzerverwaltung und -Isolation, Datenschutz und auf Abruf High Performance Computing (HPC) sowie KI-Dienste zu bieten – einfach und sicher.

Innovation für das nächste Jahrzehnt und darüber hinaus

Die Cloud-native Supercomputing-Plattform

Um maximale Leistung zu bieten, müssen Supercomputer Sicherheit für mehrere Mandanten bieten – was idealerweise durch Cloud-native Plattformen erreicht wird. Das Schlüsselelement, das diesen Architekturübergang ermöglicht, ist die DPU. 

Als vollständig integrierte Rechenzentrum-on–a-Chip-Plattform kann die DPU die Rechenzentrumsinfrastruktur anstelle des Hostprozessors entlasten und verwalten, was Sicherheit und Orchestrierung des Supercomputers ermöglicht. 

In Kombination mit NVIDIA Mellanox® InfiniBand-Switching bietet diese Architektur optimale Bare-Metal-Performance und unterstützt gleichzeitig die Isolation von Mandanten mit mehreren Knoten.

Cloud-Native Supercomputing Platform
Toward a Zero-Trust Architecture

Hin zu einer Zero-Trust-Architektur

Cloud-native Supercomputing-Systeme wurden entwickelt, um maximale Leistung, Sicherheit und Orchestrierung in einer Umgebung mit mehreren Mandanten zu bieten.

Die BlueField-DPU kann nicht vertrauenswürdige Mandanten mit mehreren Knoten hosten und gleichzeitig sicherstellen, dass Supercomputing-Ressourcen sauber an neue Mandanten ohne vorherige Residuen übergeben werden. Um dies zu erreichen, stellt die BlueField DPU ein sauberes Boot-Image für einen neu geplanten Mandanten bereit, führt eine vollständige Bereinigung und Wiederherstellung des Vertrauens durch, virtualisiert Speicher und gewährt Zugriff auf genehmigte Speicherbereiche.

Beschleunigung der Anwendungsleistung

HPC- und KI-Kommunikationsframeworks und -Bibliotheken sind latenz- und bandbreitenempfindlich und spielen eine entscheidende Rolle für die Anwendungsleistung.

Durch das Auslagern der Bibliotheken von der Host-CPU oder -GPU auf die Bluefield-DPU entsteht der höchste Überlappungsgrad für das parallele Fortschreiten von Kommunikation und Berechnung. So werden auch die negativen Auswirkungen von Schwankungen des Betriebssystems reduziert und die Anwendungsleistung drastisch erhöht. Dies ist der Schlüssel zur nächsten Generation der Supercomputing-Architektur. 

Frühe Forschungsergebnisse der Ohio State University zeigen, dass Cloud-native Supercomputer HPC-Aufträge 1,4-mal schneller ausführen können als herkömmliche.

DPU Provides 1.4X Higher Performance Acceleration for P3DFFT

HPC and AI communication frameworks

Cloud-native Supercomputing-Plattform

NVIDIA Bluefield

Die NVIDIA BlueField-DPU vereint branchenführende NVIDIA ConnectX®-Netzwerkadapter, eine breite Auswahl an Arm-Kernen mit PCIe-Subsystem und speziell gebaute HPC-Hardwarebeschleunigungs-Engines, um vollständige Programmierbarkeit der Rechenzentrumsinfrastruktur-on-a-Chip zu bieten.

InfiniBand

NVIDIA InfiniBand-Netzwerke beschleunigen und entlasten Datentransfers, um sicherzustellen, dass die Rechenressourcen nicht aufgrund fehlender Daten oder Bandbreite warten müssen. Das InfiniBand-Netzwerk kann zwischen verschiedenen Benutzern oder Mandanten partitioniert werden, was Sicherheit und Servicequalität garantiert.

DOCA

Das NVIDIA DOCA-SDK ermöglicht Infrastrukturentwicklern die schnelle Erstellung von Netzwerk-, Speicher-, Sicherheits-, Verwaltungs- und KI- sowie HPC-Anwendungen und -Diensten, zusätzlich zur NVIDIA BlueField-DPU, und nutzt dabei branchenübliche APIs. Mit DOCA können Entwickler die Supercomputing-Infrastruktur von morgen programmieren, indem sie leistungsstarke, softwaredefinierte und Cloud-native DPU-beschleunigte Dienste erstellen.

Magnum IO

Das NVIDIA MAGNUM IO™ Software Development Kit ermöglicht es Entwicklern, die Eingabe und Ausgabe (IO) von Anwendungen zu optimieren und so die Ende-zu-Ende-Zeit ihrer Workflows zu reduzieren.

Magnum IO deckt alle Aspekte von IO ab, einschließlich Speicher-, Netzwerk-, Multi-GPU- und Multi-Node-Kommunikation. Es enthält auch Tools zur Profilierung und Optimierung von Anwendungen und zur Beseitigung von IO-Engpässen.

Hauptmerkmale

  • Mandantenisolation, Datenschutz und Sicherheit
  • Auslagerung von Infrastrukturdiensten
  • Spezielle Hardware-Engines zur Beschleunigung von Kommunikationsframeworks
  • Verbesserte Servicequalität (QoS)

Vorteile

  • Bieten Sie optimale Bare-Metal-Leistung
  • Erhöht die CPU-Verfügbarkeit, Anwendungsskalierbarkeit und Systemeffizienz
  • Höhere Rechen- und Kommunikationsüberlappung
  • Reduzierte Schwankungen bzw. Systemrauschen
  • Geringere Infrastrukturkosten

Erfahren Sie mehr über Cloud-natives Supercomputing in der technischen Übersicht.