Die Bausteine der fortschrittlichen Multi-GPU-Kommunikation
Steigende Rechenanforderungen bei KI und High-Performance-Computing (HPC) erfordern Systeme mit mehreren Grafikprozessoren und nahtlosen Verbindungen zwischen Grafikprozessoren, sodass sie als einziger gigantischer Beschleuniger agieren können. Obwohl PCIe Standard ist, verursacht die begrenzte Bandbreite häufig einen Engpass. Für die Entwicklung der leistungsstärksten End-to-End-Computing-Plattform ist eine schnellere, besser skalierbare Verbindung erforderlich.
NVIDIA® NVLink® ist eine direkte High-Speed-Verbindung zwischen Grafikprozessoren. NVIDIA NVSwitch™ bringt die Interkonnektivität auf die nächste Stufe, indem es mehrere NVLinks integriert, um eine All-to-All-GPU-Kommunikation bei voller NVLink-Geschwindigkeit innerhalb eines einzigen Knotens wie NVIDIA HGX™ A100 zu ermöglichen. Mit der Kombination aus NVLink und NVSwitch konnte NVIDIA KI-Leistung effizient auf mehrere GPUs skalieren und MLPerf 0.6 für sich entscheiden – den ersten branchenweiten KI-Benchmark.
NVIDIA A100 PCIe mit NVLink-Verbindung zwischen Grafikprozessoren
NVIDIA A100 mit NVLink-Verbindungen zwischen Grafikprozessoren
Im NVSwitch-Topologiediagramm wird der Einfachheit halber die Verbindung von zwei Grafikprozessoren dargestellt. Acht oder 16 GPUs werden über NVSwitch auf die gleiche Weise mit allen Geräten verbunden
Mit der NVLink-Technologie von NVIDIA gehören Verbindungsprobleme der Vergangenheit an: Sie bietet eine höhere Bandbreite, mehr Links und eine bessere Skalierbarkeit für Multi-GPU-Systemkonfigurationen. Ein einzelner NVIDIA A100 Tensor Core-Grafikprozessor unterstützt bis zu zwölf NVLink-Verbindungen der dritten Generation für eine Bandbreite von insgesamt 600 GB/s. Das ist eine 10-mal höhere Bandbreite als bei PCIe der vierten Generation.
NVLink in A100 hat die Anzahl der Links von 6 auf 12 erhöht. Diese direkte Kommunikationsverbindung zwischen zwei Grafikprozessoren verbessert die Genauigkeit und Konvergenz von HPC und KI. NVLink ist auch in A100-PCIe-Konfigurationen mit zwei Grafikprozessoren verfügbar.
Bei Servern wie dem NVIDIA DGX™ wird diese Technologie genutzt, um eine höhere Skalierbarkeit für extrem schnelles Deep-Learning-Training zu ermöglichen.
NVLink in NVIDIA A100 verdoppelt die Bandbreite für die Kommunikation zwischen GPUs im Vergleich zur vorherigen Generation, sodass Forscher größere, anspruchsvollere Anwendungen zur Lösung komplexerer Probleme nutzen können.
Durch den Einsatz der NVLink-Technologie, die mit der NVIDIA PascalTM-Architektur erstmals eingeführt wurde, wurde die Übertragungsrate des Tesla V100 in beide Richtungen von 20 auf 25 GB/s erhöht. Diese direkte Kommunikationsverbindung zwischen zwei Grafikprozessoren verbessert die Genauigkeit und Konvergenz von High-Performance-Computing (HPC) sowie KI und erreicht höhere Geschwindigkeiten als PCIe.
Mit der rasanten Ausbreitung von Deep-Learning ist auch der Bedarf an schnellerer und besser skalierbarer Vernetzung gestiegen. Denn häufig erweist sich PCIe-Bandbreite als Engpass bei Multi-GPU-Systemen. Für die Skalierung von Deep-Learning-Workloads ist eine deutlich höhere Bandbreite und geringere Latenz erforderlich.
NVIDIA NVSwitch basiert auf der fortschrittlichen Kommunikationsfähigkeit von NVLink, um dieses Problem zu lösen. Für noch höhere Deep-Learning-Leistung unterstützt ein GPU-Fabric mehr Grafikprozessoren auf einem einzelnen Server, die durch Verbindungen mit vollständiger Bandbreite miteinander vernetzt sind. Jeder Grafikprozessor verfügt über 12 NVLinks zum NVSwitch, um eine allseitige High-Speed-Kommunikation zu ermöglichen.
NVLink und NVSwitch sind wichtige Bausteine der kompletten NVIDIA-Lösung für Rechenzentren, die Hardware, Netzwerke, Software, Bibliotheken sowie optimierte KI-Modelle und Anwendungen von NGC™ umfasst. Die extrem leistungsstarke End-to-End-Plattform für KI und HPC ermöglicht es Forschern, konkrete Ergebnisse zu liefern sowie Lösungen für die Produktion in großem Maßstab bereitzustellen und bietet bei jeder Größe eine beispiellose Beschleunigung.
NVSwitch ist die erste knotenbasierte Switch-Architektur, die 8 bis 16 vollständig verbundene Grafikprozessoren auf einem einzigen Serverknoten unterstützt. Der NVSwitch der zweiten Generation steuert die simultane Kommunikation zwischen allen GPU-Paaren mit unglaublichen 600 GB/s. Er bietet volle Unterstützung für eine allseitige Kommunikation mit direkter Peer-to-Peer-Speicheradressierung für Grafikprozessoren. Diese 16 Grafikprozessoren können zudem zusammen als ein großer Grafikprozessor mit einheitlichem Speicherplatz und 5 PetaFLOPS Rechenleistung für Deep Learning genutzt werden.
Erleben Sie NVIDIA DGX A100, das universelle System für KI-Infrastruktur und das weltweit erste KI-System, das auf dem NVIDIA A100 Tensor-Core-Grafikprozessor basiert.