NVIDIA Magnum IO

Das IO-Subsystem für moderne, GPU-beschleunigte Rechenzentren

Speicherplatz und Netzwerk-IO-Leistung in Rechenzentren maximieren

Das Rechenzentrum ist die Recheneinheit der Zukunft. Herzstück sind dabei GPUs und Netzwerke von NVIDIA. Beschleunigtes Computing erfordert Input/Output-Beschleunigung (IO), um die Leistung voll auszuschöpfen. NVIDIA Magnum IO™, das IO-Subsystem für moderne Rechenzentren, ist die Architektur für paralleles, asynchrones und intelligentes IO in Rechenzentren. Es schöpft Speicher- und Netzwerk-IO-Leistung für die Beschleunigung mehrerer GPUs und mehrerer Knoten voll aus.

Hauptvorteile von Magnum IO

Optimierte IO-Leistung

Die CPU wird umgangen, um direkten IO zwischen GPU-Speicher, Netzwerk und Speicher zu ermöglichen, was zu einer 10-fach höheren Bandbreite führt.

Systemausgewogenheit und -Auslastung

CPU-Konflikte werden abgemildert, um ein ausgewogeneres GPU-beschleunigtes System zu schaffen und maximale IO-Bandbreite zu erreichen, wodurch bis zu 10-mal weniger CPU-Kerne und 30-mal weniger CPU-Auslastung beansprucht werden.

Nahtlose Integration

Optimierte Implementierung für aktuelle und zukünftige Plattformen, unabhängig davon, ob Datenübertragungen fein aufgelöst und latenzempfindlich, grob aufgelöst und bandbreitenempfindlich oder kollektiv sind.

Magnum IO Optimierungsstack

Magnum IO nutzt Speicher-IO, Netzwerk-IO, netzwerkinternes Computing und IO-Management, um Datenbewegungen sowie den Zugriff auf und die Verwaltung von Systemen mit mehreren Grafikprozessoren und mehreren Knoten zu vereinfachen und zu beschleunigen. Magnum IO unterstützt NVIDIA CUDA-X™-Bibliotheken und schöpft die Bandbreite an Hardwaretopologien der NVIDIA-GPUs und NVIDIA-Netzwerkhardware voll aus, um optimalen Durchsatz und geringe Latenz zu erzielen.

 [Developer Blog] Magnum IO - Accelerating IO in the Modern Data Center

Magnum IO Optimization Stack

Speicher-IO

Bei Systemen mit mehreren Knoten und mehreren Grafikprozessoren ist die langsame Single-Thread-Leistung der CPU entscheidend für den Zugriff auf Daten lokaler oder entfernter Speichergeräte. Mit Speicher-IO-Beschleunigung umgeht die GPU die CPU und den Systemspeicher. Sie greift über acht 200 Gb/s NICs auf den Fernspeicher zu und erreicht so eine Speicherbandbreite von bis zu 1,6 Terabit pro Sekunde.

Enthaltene Technologien:

Netzwerk-IO

Netzwerk-IO-Beschleunigung auf NVIDIA NVLink® Fabric- und RDMA-Basis verringert den IO-Aufwand. Die CPU wird umgangen und direkter Datenaustausch zwischen Grafikprozessoren mit hohen Übertragungsraten ermöglicht.

Enthaltene Technologien:

Netzwerkinternes Computing

Netzwerkinternes Computing ermöglicht die Verarbeitung innerhalb des Netzwerks, wodurch die Latenz des Datenaustauschs zwischen entfernten Endpunkten mitsamt Aussetzern vermieden wird. Datenverarbeitungseinheiten (DPUs) bieten softwaredefinierte, netzwerkhardwarebeschleunigte Rechenleistung, einschließlich vorkonfigurierter Datenverarbeitungsengines sowie programmierbarer Engines.

Enthaltene Technologien:

IO-Verwaltung

Um IO Optimierungen für Rechenleistung, Netzwerk und Speicher bereitstellen zu können, benötigen Nutzer fortschrittliche Methoden für Telemetrie und Deep Troubleshooting. Die Managementplattformen von Magnum IO ermöglichen es den Betreibern von Forschungs- und Industrierechenzentren, moderne Rechenzentrums-Fabrics effizient zu versorgen, zu überwachen und zu verwalten sowie sie präventiv zu warten.

Enthaltene Technologien:

IO anwendungsübergreifend beschleunigen

Magnum IO ist mit Bibliotheken für NVIDIA CUDA-X High Performance Computing (HPC) und Künstliche Intelligenz (KI) verknüpft, um IO für vielfältige Anwendungsgebiete zu beschleunigen – von KI bis hin zu wissenschaftlichen Visualisierungen.

  • Datenanalysen
  • High Performance Computing
  • Deep Learning
Datenanalysen

Datenanalysen

Datenwissenschaft und maschinelles Lernen (ML) nutzen weltweit die meiste Rechenleistung. Schon mit geringen Genauigkeitsverbesserungen bei ML-Prognosemodellen können Milliarden von Dollar gewonnen werden. Um die Genauigkeit zu verbessern, verfügt die RAPIDS Accelerator Library über einen integrierten, beschleunigten Apache-Spark-Shuffle auf Basis von UCX, der konfiguriert werden kann, um die Vorteile direkter Kommunikation zwischen Grafikprozessoren sowie RDMA zu nutzen. Mit der Kombination von NVIDIA Netzwerken,  Magnum IO-Software, GPU-beschleunigtem Spark 3.0 und NVIDIA RAPIDS™ sind Rechenzentren von NVIDIA besonders geeignet, riesige Workloads mit nie dagewesener Leistung und Effizienz zu bewältigen.

 Adobe erreicht eine 7-fache Beschleunigung im Modelltraining mit Spark 3.0 bei Databricks und verringert dadurch die Kosten um 90 %

 Mit 19,5-mal schnellerer TPCx-BB-Performance erobert UCX- und RAPIDS-Datenwissenschaftssoftware auf NVIDIA DGX™ A100 die Spitzenposition

High Performance Computing

High Performance Computing

HPC ist eine Säule der modernen Wissenschaft. In der modernen Forschung nutzen Wissenschaftler Simulationen, um komplexe Moleküle zur Erforschung von Medikamenten besser untersuchen zu können, die Physik, um potenzielle Energiequellen zu erschließen sowie atmosphärische Daten, um extreme Wetterverhältnisse besser vorherzusagen und bessere Vorbereitungen treffen zu können. Magnum IO nutzt hardwarebasierte Beschleunigungengines und Smart Offloads wie RDMA, NVIDIA GPUDirect® und NVIDIA Scalable Hierarchical Aggregation and Reduction Protocol (SHARP)™. Gleichzeitig wird die hohe Bandbreite und extrem niedrige Latenz von 200 Gb/s HDR InfiniBand ausgeschöpft. Somit wird die leistungsfähigste und effizienteste Implementierung von HPC und ML in jeder Größenordnung erreicht.

Größte interaktive Volumenvisualisierung – Simulierte Landung einer Mars-Sonde für die NASA, 150 TB

Deep Learning

Deep Learning

Mit immer neuen Herausforderungen, wie beispielsweise der Gesprächs-KI und Deep-Empfehlungssystemen, nimmt die Komplexität von KI-Modellen weiterhin rasant zu. Gesprächs-KI-Modelle wie Megatron-BERT von NVIDIA benötigen für das Training mehr als die 3000-fache Rechenleistung verglichen mit Bildklassifizierungsmodellen wie ResNet-50. Damit Forscher weiterhin die Grenzen dessen verschieben können, was mit KI möglich ist, sind hohe Leistungsfähigkeit und enorme Skalierbarkeit erforderlich. Die Kombination von 200 Gb/s InfiniBand-Networking und dem Magnum IO Software-Stack bietet effiziente Skalierbarkeit für Tausende Grafikprozessoren in einem einzelnen Cluster. 

Deep-Learning-Training in den Rechenzentren von Facebook: Gestaltung von Scale-Up- und Scale-Out-Systemen

Melden Sie sich an, um auf dem Laufenden zu bleiben.