I fondamenti della comunicazione avanzata multi-GPU
L'aumento delle richieste di calcolo in ambito IA e HPC stanno facendo nascere l'esigenza di sistemi multi-GPU collegate in grado di lavorare insieme come un unico enorme acceleratore. Ma sebbene il PCIe sia lo standard di questo tipo di configurazioni, spesso crea un collo di bottiglia. Per creare la piattaforma di elaborazione end-to-end più potente, è necessaria un'interconnessione più veloce e scalabile.
NVIDIA® NVLink® è un'interconnessione diretta da GPU a GPU ad alta velocità. NVIDIA NVSwitch™ potenzia l'interconnettività incorporando più NVLink per consentire la comunicazione tra tutte le GPU alla massima velocità in un singolo nodo come NVIDIA HGX™ A100. La combinazione di NVLink e NVSwitch è stata resa possibile da NVIDIA per scalare le prestazioni IA sui più GPU e vincere il MLPerf 0.6, il primo benchmark di settore per l'IA.
NVIDIA A100 PCIe con connessione GPU-GPU NVLink
NVIDIA A100 con connessioni NVLink GPU-GPU
Il diagramma della topologia NVSwitch mostra la connessione di due GPU per semplificazione. Otto o 16 GPU tutte collegate tra loro tramite NVSwitch allo stesso modo.
La tecnologia NVIDIA NVLink affronta il problema dell'interconnessione fornendo una banda più ampia, più link e una maggiore scalabilità per le configurazioni di sistemi a più GPU. Una singola GPU NVIDIA A100 Tensor Core supporta fino a dodici connessioni NVLink di terza generazione per una larghezza di banda totale di 600 gigabyte al secondo (GB/sec), dieci volte la banda di PCIe Gen 4.
NVLink in A100 ha aumentato il numero di collegamenti da 6 a 12. Questa comunicazione diretta tra due GPU, migliora la precisione e la convergenza per HPC e IA. NVLink è disponibile anche nelle configurazioni PCIe a due GPU A100.
I server come NVIDIA DGX-1™ sfruttano questa tecnologia per offrire maggiore scalabilità per il training su deep learning ultra veloce.
NVLink in NVIDIA A100 raddoppia la banda di comunicazione tra GPU rispetto alla generazione precedente, permettendo ai ricercatori di utilizzare applicazioni più grandi e più sofisticate per risolvere problemi sempre più complessi.
La rapida diffusione del deep learning ha generato la necessità di interconnessioni più rapide e scalabili, mentre la larghezza di banda PCIe spesso crea colli di bottiglia a livello di sistemi multi-GPU. Per la scalabilità dei carichi di lavoro di deep learning, sono necessari una larghezza di banda notevolmente maggiore e una latenza ridotta.
NVIDIA NVSwitch si basa sulla capacità di comunicazione avanzata di NVLink per risolvere questo problema. Porta le prestazioni del deep learning su un livello ancora superiore con un fabric della GPU che abilità più GPU su un singolo server con connettività a massima larghezza di banda tra loro. Ogni GPU dispone di 12 NVLinks a NVSwitch per consentire comunicazioni complesse e ad alta velocità.
NVLink e NVSwitch sono fondamenti essenziali della soluzione completa per data center NVIDIA che integra hardware, rete, software, librerie, modelli e applicazioni IA ottimizzati dal NGC™. Piattaforma IA e HPC completa più potente, consente ai ricercatori di fornire risultati in tempo reale e distribuire soluzioni nell'ambiente di produzione in modo scalabile, generando un'accelerazione senza precedenti su ogni ordine di grandezza.
NVSwitch è la prima architettura switch su nodo a supportare da 8 a 16 GPU completamente connesse su un singolo nodo server. Il NVSwitch di seconda generazione favorisce la comunicazione simultanea tra tutte le otto coppie di GPU alla velocità incredibile di 600 GB/s. Supporta la comunicazione completa all-to-all con l'indirizzamento diretto della memoria peer-to-peer dalla GPU. Le 16 GPU possono essere utilizzate come singolo acceleratore su larga scala spazio di memoria unificato e fino a 5 petaFLOPS di potenza di elaborazione con deep learning.
Scopri NVIDIA DGX A100, il sistema universale per l'infrastruttura IA e il primo sistema IA basato sulla GPU NVIDIA A100 Tensor Core.