NVLink Fabric

Fortschritte bei der Verarbeitung mit mehreren Grafikprozessoren

Maximizing System Throughput

MAXIMIERUNG DES SYSTEMDURCHSATZES

Mit der NVLink-Technologie von NVIDIA® gehört dieses Verbindungsproblem der Vergangenheit an: Sie bietet eine höhere Bandbreite, mehr Links und eine bessere Skalierbarkeit für Systemkonfigurationen mit mehreren Grafikprozessoren bzw. mit mehreren Grafikprozessoren und CPUs. Ein einzelner NVIDIA Tesla® V100-Grafikprozessor unterstützt bis zu 6 NVLink-Links und eine Bandbreite von insgesamt 300 GB/s. Das ist eine 10 Mal höhere Bandbreite als bei PCIe 3. Bei Servern wie dem neuen NVIDIA DGX-1 werden diese Technologien genutzt, um eine höhere Skalierbarkeit für extrem schnelles Deep-Learning-Training zu ermöglichen.

BISHER UNERREICHTE BESCHLEUNIGUNG ZWISCHEN GRAFIKPROZESSOREN

Durch den Einsatz der NVLink-Technologie, die mit der NVIDIA Pascal-Architektur erstmals eingeführt wurde, wurde die Übertragungsrate des Tesla V100 in beide Richtungen von 20 auf 25 GB/s erhöht. Diese Technologie kann für die Datenübertragung zwischen Grafikprozessoren und CPUs (GPU-to-CPU) sowie zwischen Grafikprozessoren (GPU-to-GPU) eingesetzt werden, wie dies beispielsweise beim DGX-1 mit Tesla V100 der Fall ist.

Tesla V100 mit NVLink-Verbindungen (GPU-to-GPU und GPU-to-CPU)
8 Tesla V100-Grafikprozessoren, die mithilfe der NVLink-Technologie in einer Hybrid-Cube-Mesh-Topologie verbunden sind (z. B. im DGX-1V-Server)
BISHER UNERREICHTE LEISTUNG

BISHER UNERREICHTE LEISTUNG

Mithilfe der NVLink-Technologie von NVIDIA lässt sich eine um bis zu 31 % höhere Leistung erzielen als mit einem ansonsten identisch konfigurierten Server. Durch die deutlich höhere Bandbreite und geringere Latenz kann die Leistung skaliert werden, während die Deep-Learning-Workloads immer umfangreicher werden.

NVSWITCH: VOLLSTÄNDIG VERNETZTES NVLINK

Mit dem rasanten Wachstum bei Deep-Learning-Workloads ist auch der Bedarf an schnellerer und besser skalierbarer Vernetzung gestiegen. Denn immer häufiger erweist sich PCIe-Bandbreite als Engpass bei Systemen mit mehreren Grafikprozessoren.

NVLink war ein gewaltiger Fortschritt, da es einzelne Server mit acht Grafikprozessoren unterstützt, was eine Beschleunigung jenseits der Grenzen von PCIe ermöglichte. Aber um eine noch höhere Deep-Learning-Leistung zu ermöglichen, ist ein GPU-Fabric erforderlich, das mehr Grafikprozessoren auf einem einzelnen Server unterstützt, die durch Verbindungen mit vollständiger Bandbreite miteinander vernetzt sind.

NVIDIA NVSwitch ist die erste knotenbasierte Switch-Architektur, die 16 vollständig verbundene Grafikprozessoren auf einem einzigen Serverknoten unterstützt. Alle 8 Grafikprozessoren-Paare können mit einer unglaublichen Geschwindigkeit von jeweils 300 GB/s gleichzeitig miteinander kommunizieren. Diese 16 vollständig verbundenen Grafikprozessoren können zudem zusammen als ein großer Grafikprozessor mit 0,5 Terabyte vereinheitlichtem Speicherplatz und 2 PetaFLOPS Rechenleistung genutzt werden.

NVSwitch Chart Speedup