NVLink und NVSwitch

Die Bausteine der fortschrittlichen Multi-GPU-Kommunikation

Wie NVLink und NVSwitch zusammenarbeiten

NVLink

Tesla V100 with NVLink GPU-to-GPU and GPU-to-CPU Connections

NVSwitch

NVIDIA NVLink Performance Since 2014

Maximierung des Systemdurchsatzes mit NVLink

Mit der NVLink-Technologie von NVIDIA gehören Verbindungsprobleme der Vergangenheit an: Sie bietet eine höhere Bandbreite, mehr Links und eine bessere Skalierbarkeit für Multi-GPU-Systemkonfigurationen. Ein einzelner NVIDIA Tesla® V100-Grafikprozessor unterstützt bis zu sechs NVLink-Linkverbindungen für eine Bandbreite von insgesamt 300 GB/s. Das ist eine 10 Mal höhere Bandbreite als bei PCIe der dritten Generation. Bei Servern wie NVIDIA DGX-1TM und DGX-2 wird diese Technologie genutzt, um eine höhere Skalierbarkeit für extrem schnelles Deep-Learning-Training zu ermöglichen. NVLink also supports up to 8 GPUs in a single virtual machine with NVIDIA Quadro Virtual Data Center Workstation (vDWS) or NVIDIA Virtual Compute Server (vComputeServer) software.

NVIDIA NVLink Performance Since 2014

Höchste Beschleunigung zwischen Grafikprozessoren

Durch den Einsatz der NVLink-Technologie, die mit der NVIDIA PascalTM-Architektur erstmals eingeführt wurde, wurde die Übertragungsrate des Tesla V100 in beide Richtungen von 20 auf 25 GB/s erhöht. Diese direkte Kommunikationsverbindung zwischen zwei Grafikprozessoren verbessert die Genauigkeit und Konvergenz von High-Performance-Computing (HPC) sowie KI und erreicht höhere Geschwindigkeiten als PCIe. 

NVLink Connecting Eight Tesla V100 Accelerators in a Hybrid Cube Mesh Topology as Used in the DGX-1V Server

Bisher unerreichte Leistung

Mithilfe der NVLink-Technologie lässt sich eine um bis zu 70 Prozent höhere Leistung erzielen als mit einem ansonsten identisch konfigurierten Server. Durch die deutlich höhere Bandbreite und geringere Latenz kann die Leistung skaliert werden, während die Deep-Learning-Workloads umfangreicher werden.

NVLink Delivers Up To 70% Speedup vs PCIe

NVLink Delivers Up To 70% Speedup vs PCIe

NVLink: GPU Servers: Dual Xeon Gold 6140@2.30GHz or E5-2698 v4@3.6GHz for PyTorch with 8xV100 PCIe vs 8xV100 NVLink. SW benchmarks: MILC (APEX medium). HOOMD-Blue (microsphere), LAMMPS (LJ 2.5).

NVSwitch

NVSwitch: Vollständig verbundener NVLink

Mit der rasanten Ausbreitung von Deep-Learning ist auch der Bedarf an schnellerer und besser skalierbarer Vernetzung gestiegen. Denn häufig erweist sich PCIe-Bandbreite als Engpass bei Multi-GPU-Systemen.

NVIDIA NVSwitch basiert auf der fortschrittlichen Kommunikationsfähigkeit von NVLink, um dieses Problem zu lösen. Für noch höhere Deep-Learning-Leistung unterstützt ein GPU-Fabric mehr Grafikprozessoren auf einem einzelnen Server, die durch Verbindungen mit vollständiger Bandbreite miteinander vernetzt sind.

Vollständige Verbindung für unübertroffene Leistung

NVSwitch ist die erste knotenbasierte Switch-Architektur, die 16 vollständig verbundene Grafikprozessoren auf einem einzigen Serverknoten unterstützt. Alle 8 Grafikprozessoren-Paare können mit einer unglaublichen Geschwindigkeit von 300 GB/s gleichzeitig miteinander kommunizieren. Diese 16 vollständig verbundenen Grafikprozessoren können zudem zusammen als ein großer Grafikprozessor mit 0,5 Terabyte vereinheitlichtem Speicherplatz und 2 PetaFLOPS Rechenleistung für Deep Learning genutzt werden. Ein einzelnes HGX-2- oder DGX-2-System mit NVSwitch bietet bis zu 2,7x mehr Anwendungsleistung als 2 HGX-1- oder DGX-1-Systeme, die mit InfiniBand verbunden sind.

NVSwitch Delivers a >2X Speedup for Deep Learning and HPC

2 HGX-1V-Server verfügen über Dual-Socket Xeon E5 2698v4-Prozessor, 8 V100-Grafikprozessoren. Server, die über 4 100-GB-IB-Ports verbunden sind (auf DGX-1 ausgeführt) | HGX-2-Server verfügt über Dual-Socket Xeon Platinum 8168-Prozessor, 16 V100-Grafikprozessoren, NVSwitch (auf DGX-2 ausgeführt).

NVIDIA HGX-2

Leistungsstärkste beschleunigte Server-Plattform der Welt für Deep Learning, maschinelles Lernen und HPC.