Das IO-Subsystem für moderne, GPU-beschleunigte Rechenzentren
Das Rechenzentrum ist die Recheneinheit der Zukunft. Herzstück sind dabei GPUs und Netzwerke von NVIDIA. Beschleunigtes Computing erfordert Input/Output-Beschleunigung (IO), um die Leistung voll auszuschöpfen. NVIDIA Magnum IO™, das IO-Subsystem für moderne Rechenzentren, ist die Architektur für paralleles, asynchrones und intelligentes IO in Rechenzentren. Es schöpft Speicher- und Netzwerk-IO-Leistung für die Beschleunigung mehrerer GPUs und mehrerer Knoten voll aus.
Magnum IO, das IO-Subsystem für Rechenzentren, führt neue Verbesserungen ein, um IO und die Kommunikation zur Unterstützung mandantenfähiger Rechenzentren zu beschleunigen, bekannt als „Magnum IO for Cloud-Native Supercomputing“.
Magnum IO GPUDirect über ein InfiniBand-Netzwerk ermöglicht Verizon eine bahnbrechende verteilte Architektur für volumetrische Videos. Durch die Integration seiner Technologie in Edge-Computing-Rechenzentren, die sich in Sportzentren in den Vereinigten Staaten und in Verizon-Einrichtungen befinden, ist das Unternehmen in der Lage, 3D-Erlebnisse in den Medien zu ermöglichen und Sie mitten ins Spiel zu versetzen.
Die CPU wird umgangen, um direkten IO zwischen GPU-Speicher, Netzwerk und Speicher zu ermöglichen, was zu einer 10-fach höheren Bandbreite führt.
CPU-Konflikte werden abgemildert, um ein ausgewogeneres GPU-beschleunigtes System zu schaffen und maximale IO-Bandbreite zu erreichen, wodurch bis zu 10-mal weniger CPU-Kerne und 30-mal weniger CPU-Auslastung beansprucht werden.
Optimierte Implementierung für aktuelle und zukünftige Plattformen, unabhängig davon, ob Datenübertragungen fein aufgelöst und latenzempfindlich, grob aufgelöst und bandbreitenempfindlich oder kollektiv sind.
Magnum IO nutzt Speicher-IO, Netzwerk-IO, netzwerkinternes Computing und IO-Management, um Datenbewegungen sowie den Zugriff auf und die Verwaltung von Systemen mit mehreren Grafikprozessoren und mehreren Knoten zu vereinfachen und zu beschleunigen. Magnum IO unterstützt NVIDIA CUDA-X™-Bibliotheken und schöpft die Bandbreite an Hardwaretopologien der NVIDIA-GPUs und NVIDIA-Netzwerkhardware voll aus, um optimalen Durchsatz und geringe Latenz zu erzielen.
[Developer Blog] Magnum IO - Accelerating IO in the Modern Data Center
Bei Systemen mit mehreren Knoten und mehreren Grafikprozessoren ist die langsame Single-Thread-Leistung der CPU entscheidend für den Zugriff auf Daten lokaler oder entfernter Speichergeräte. Mit Speicher-IO-Beschleunigung umgeht die GPU die CPU und den Systemspeicher. Sie greift über acht 200 Gb/s NICs auf den Fernspeicher zu und erreicht so eine Speicherbandbreite von bis zu 1,6 Terabit pro Sekunde.
Enthaltene Technologien:
Netzwerk-IO-Beschleunigung auf NVIDIA NVLink® Fabric- und RDMA-Basis verringert den IO-Aufwand. Die CPU wird umgangen und direkter Datenaustausch zwischen Grafikprozessoren mit hohen Übertragungsraten ermöglicht.
Netzwerkinternes Computing ermöglicht die Verarbeitung innerhalb des Netzwerks, wodurch die Latenz des Datenaustauschs zwischen entfernten Endpunkten mitsamt Aussetzern vermieden wird. Datenverarbeitungseinheiten (DPUs) bieten softwaredefinierte, netzwerkhardwarebeschleunigte Rechenleistung, einschließlich vorkonfigurierter Datenverarbeitungsengines sowie programmierbarer Engines.
Um IO Optimierungen für Rechenleistung, Netzwerk und Speicher bereitstellen zu können, benötigen Nutzer fortschrittliche Methoden für Telemetrie und Deep Troubleshooting. Die Managementplattformen von Magnum IO ermöglichen es den Betreibern von Forschungs- und Industrierechenzentren, moderne Rechenzentrums-Fabrics effizient zu versorgen, zu überwachen und zu verwalten sowie sie präventiv zu warten.
Magnum IO ist mit Bibliotheken für NVIDIA CUDA-X High Performance Computing (HPC) und Künstliche Intelligenz (KI) verknüpft, um IO für vielfältige Anwendungsgebiete zu beschleunigen – von KI bis hin zu wissenschaftlichen Visualisierungen.
Datenwissenschaft und maschinelles Lernen (ML) nutzen weltweit die meiste Rechenleistung. Schon mit geringen Genauigkeitsverbesserungen bei ML-Prognosemodellen können Milliarden von Dollar gewonnen werden. Um die Genauigkeit zu verbessern, verfügt die RAPIDS Accelerator Library über einen integrierten, beschleunigten Apache-Spark-Shuffle auf Basis von UCX, der konfiguriert werden kann, um die Vorteile direkter Kommunikation zwischen Grafikprozessoren sowie RDMA zu nutzen. Mit der Kombination von NVIDIA Netzwerken, Magnum IO-Software, GPU-beschleunigtem Spark 3.0 und NVIDIA RAPIDS™ sind Rechenzentren von NVIDIA besonders geeignet, riesige Workloads mit nie dagewesener Leistung und Effizienz zu bewältigen.
Adobe erreicht eine 7-fache Beschleunigung im Modelltraining mit Spark 3.0 bei Databricks und verringert dadurch die Kosten um 90 %
In der modernen Forschung nutzen Wissenschaftler Simulationen, um zur Erforschung neuer Arzneimittel komplexe Moleküle besser zu untersuchen, neue Energiequellen in der Physik zu erschließen und mit atmosphärischen Daten extreme Wetterverhältnisse besser vorherzusagen. Magnum IO nutzt hardwarebasierte Beschleunigungsengines und Smart Offloads wie RDMA, GPUDirect und NVIDIA SHARP. Gleichzeitig wird die hohe Bandbreite von 400 Gb/s und die extrem niedrige Latenz von NVIDIA Quantum 2 InfiniBand-Netzwerken ausgeschöpft.
In Umgebungen mit mehreren Mandanten kann es vorkommen, dass Benutzeranwendungen die wahllosen Störungen durch den Datenverkehr benachbarter Anwendungen nicht bemerken. In Kombination mit der neuesten NVIDIA Quantum 2 InfiniBand-Plattform bietet Magnum IO neue und verbesserte Funktionen zur Minderung der negativen Auswirkungen auf die Leistung für den Benutzer. Dies liefert optimale Ergebnisse und ermöglicht äußerst effiziente High Performance Computing(HPC)- und Machine Learning-Bereitstellungen in jeder Größenordnung.
Größte interaktive Volumenvisualisierung – Simulierte Landung einer Mars-Sonde für die NASA, 150 TB
Mit immer neuen Herausforderungen, wie beispielsweise der Gesprächs-KI und Deep-Empfehlungssystemen, nimmt die Komplexität von KI-Modellen weiterhin rasant zu. Gesprächs-KI-Modelle wie Megatron-BERT von NVIDIA benötigen für das Training mehr als die 3000-fache Rechenleistung verglichen mit Bildklassifizierungsmodellen wie ResNet-50. Damit Forscher weiterhin die Grenzen dessen verschieben können, was mit KI möglich ist, sind hohe Leistungsfähigkeit und enorme Skalierbarkeit erforderlich. Die Kombination von 200 Gb/s InfiniBand-Networking und dem Magnum IO Software-Stack bietet effiziente Skalierbarkeit für Tausende Grafikprozessoren in einem einzelnen Cluster.
Deep-Learning-Training in den Rechenzentren von Facebook: Gestaltung von Scale-Up- und Scale-Out-Systemen
Melden Sie sich an, um auf dem Laufenden zu bleiben.
Erleichtert IO-Übertragungen direkt in den GPU-Speicher, wodurch kostspielige Engpässe auf den Datenpfaden zu und von der CPU bzw. dem Systemspeicher wegfallen. Vermeidet die Latenzbelastung einer zusätzlichen Kopie über den Systemspeicher, welche besonders kleinere Übertragungen beeinträchtigt. Die CPU wird entlastet und Engpässe durch größere Unabhängigkeit verringert.
MEHR ERFAHREN ›
Blog lesen: GPUDirect Storage: A Direct Path Between Storage and GPU Memory
Webinar ansehen: NVIDIA GPUDirect Storage: Accelerating the Data Path to the GPU
Stellt vernetzten Speicher, z. B. NVMe over Fabrics (NVMe-oF), logisch als lokales NVMe-Laufwerk dar, wodurch das Host-Betriebssystem bzw. der Hypervisor anstelle eines Remote-Netzwerkspeicherprotokolls einen normalen NVMe-Treiber verwenden kann.
Bibliotheken und optimierte NIC-Treiber für die schnelle Paketverarbeitung im Benutzerbereich, die ein Framework und eine gängige API für Anwendungen mit hohen Anforderungen an die Netzwerkgeschwindigkeit bieten.
Bietet Zugriff auf den Netzwerkadapter, um Speicherdatenpuffer direkt bei Peergeräten auszulesen oder zu schreiben. Ermöglicht RDMA-basierten Anwendungen, die Rechenleistung von Peergeräten zu nutzen, ohne Daten über den Hostspeicher kopieren zu müssen.
Ein produktionstaugliches Open-Source-Kommunikations-Framework für datenfokussierte und High-Performance-Anwendungen. Eine Low-Level-Schnittstelle erlaubt den Zugriff auf fundamentale Netzwerkaktionen der zugrundeliegenden Hardware. Paket beinhaltet: MPI- und SHMEM-Bibliotheken, Unified Communication X (UCX), NVIDIA SHARP, KNEM und standard MPI-Benchmarks.
Bietet durch enge Synchronisation der verbundenen Prozessoren topologiesensitive Kommunikationsprimitive.
Bietet eine parallele Programmierschnittstelle auf Basis des OpenSHMEM-Standards und schafft so einen globalen Adressraum für Daten, der den Arbeitsspeicher mehrerer GPUs auf mehreren Servern umfasst.
Zum Blog: Beschleunigung von teambasierten NVSHMEM 2.0-Collectives mit NCCL
Ein produktionstaugliches Open-Source-Kommunikations-Framework für datenfokussierte und High-Performance-Anwendungen. Eine Low-Level-Schnittstelle erlaubt den Zugriff auf fundamentale Netzwerkaktionen der zugrundeliegenden Hardware. Enthält zudem eine High-Level-Schnittstelle für die Erstellung von Protokollen für MPI, OpenSHMEM, PGAS, Spark sowie andere High-Performance- und Deep-Learning-Anwendungen.
The set of features that accelerate switch and packet processing. ASAP2 offloads data steering and security from the CPU into the network boosts efficiency, adds control, and isolates them from malicious applications.
LEARN MORE ›
Die NVIDIA® Bluefield® DPU entlastet die CPU bei wichtigen Netzwerk-, Sicherheits- und Speicheraufgaben und ist die beste Lösung für Leistungs-, Netzwerkeffizienz- und Cybersicherheitsprobleme in modernen Rechenzentren.
Reduziert die MPI-Kommunikationszeit und verbessert die Überlappung zwischen Rechenleistung und Kommunikation. Wird von NVIDIA Mellanox InfiniBand Adaptern verwendet, um die Verarbeitung von MPI-Nachrichten des Hostrechners auf die Netzwerkkarte zu übertragen, wodurch die Nullkopie von MPI-Nachrichten ermöglicht wird.
Verbessert die Leistung von Algorithmen zur Reduktion und Aggregation von Daten, z. B. in MPI, SHMEM, NCCL und anderen. Dafür werden diese Algorithmen von GPU oder CPU auf die Schaltelemente des Netzwerks umgeladen und die wiederholte Hin- und Rücksendung von Daten zwischen den Endpunkten entfällt. SHARP-Integration steigert die Leistung von NCCL um das 4-fache und zeigt eine 7-fache Leistungssteigerung bei der Latenz von MPI-Kollektiven.
Ermöglicht Netzwerkorchestrierung, Versorgung, Konfigurations- und Aufgabenverwaltung, tiefgreifende Untersuchungen der Fabric-Integrität, Datenverkehrsnutzung und die Verwaltung von Ethernetlösungen.
Bietet Debugging, Überwachung, Management und die effiziente Versorgung von Fabrics in Rechenzentren für InfiniBand. Unterstützt Echtzeit-Netzwerktelemetrie durch Cyberintelligenz und Analysen mit KI-Unterstützung.