La piattaforma di accelerazione IO per il data center
Le aziende stanno perfezionando i dati e diventando produttori di intelligence. I data center stanno diventando fabbriche IA abilitate dal computing accelerato, che ha reso l'elaborazione un milione di volte più veloce. Ma, il computing accelerato richiede anche IO accelerato. NVIDIA Magnum IO™ è l'architettura per i data center IO paralleli e intelligenti. Massimizza lo storage, la rete e le comunicazioni multi-nodo e multi-GPU per le applicazioni più importanti del mondo, utilizzando modelli linguistici di grandi dimensioni, sistemi recommender, immagini, simulazione e ricerca scientifica.
NVIDIA Magnum IO utilizza IO di storage, IO di rete IO, calcolo in rete e gestione IO per semplificare e accelerare il movimento, l'accesso e la gestione dei dati per sistemi multi-GPU e multi-nodo. Magnum IO supporta le librerie NVIDIA CUDA-X™ e sfrutta al meglio una gamma di topologie hardware NVIDIA GPU e NVIDIA Networking per ottenere un throughput ottimale e una bassa latenza.
[Blog per sviluppatori] Magnum IO - Accelerazione dell'IO nel data center moderno
Nei sistemi multi-GPU e multi-nodo, la lentezza della CPU, le prestazioni a thread singolo complicano l'accesso ai dati da dispositivi di storage locali o remoti. Con l'accelerazione dell'IO di storage, la GPU ignora la memoria della CPU e del sistema e accede allo storage remoto tramite schede NIC 8x 200 GB/sec, raggiungendo fino a 1,6 TB/s di banda di archiviazione raw.
Tecnologie incluse:
Le reti NVIDIA NVLink®, NVIDIA Quantum InfiniBand, Ethernet e l'accelerazione dell'IO basata su RDMA riducono il carico di IO, ignorando la CPU e abilitando trasferimenti diretti alle GPU ad alta velocità.
Il calcolo in rete garantisce l'elaborazione all'interno della rete, eliminando la latenza prodotta con l'attraversamento degli end-point i gli ostacoli lungo il percorso. Le unità di elaborazione dati (DPU) introducono il calcolo di rete software-defined e accelerato da hardware, che include motori di elaborazione dati preconfigurati e motori programmabili.
Per fornire ottimizzazioni IO su calcolo, rete e storage, gli utenti necessitano di telemetria profonda e tecniche di risoluzione dei problemi avanzate. Le piattaforme di gestione Magnum IO consentono agli operatori di ricerca e data center industriali di eseguire in modo efficiente, monitorare, gestire e mantenere preventivamente i fabric moderni.
NVIDIA Magnum IO si interfaccia con le librerie NVIDIA per HPC e IA per accelerare l'IO in una vasta gamma di casi d'uso, dall'IA alla visualizzazione scientifica.
Oggi, la scienza dei dati e il machine learning (ML) sono i principali segmenti di calcolo usati del mondo. Miglioramenti anche modesti dell'accuratezza dei modelli di ML predittivi possono tradursi in miliardi di dollari in termini di profitti.
Per migliorare la precisione, la libreria RAPIDS™ Accelerator dispone di un sistema shuffle Apache Spark integrato basato su UCX che può essere configurato per sfruttare le funzionalità di comunicazione GPU-GPU e RDMA. Insieme a NVIDIA Networking, il software NVIDIA Magnum IO, Spark 3.0 accelerato da GPU e RAPIDS, la piattaforma per data center NVIDIA è in grado di accelerare enormi carichi di lavoro a livelli mai visti prima in termini di prestazioni ed efficienza.
GPUDirect Storage (GDS) è stato integrato con RAPIDS per lettori ORC, Parquet, CSV e Avro. RAPIDS CuIO ha ottenuto un miglioramento delle prestazioni di 4,5 volte con i file Parquet utilizzando GDS su flussi di lavoro su larga scala.
Adobe raggiunge una velocità 7 volte superiore nel training dei modelli con Spark 3.0 su Databricks per un risparmio del 90%
Per sfruttare le scoperte di nuova generazione, gli scienziati usano simulazioni per comprendere al meglio il comportamento delle molecole e trovare nuovi farmaci, analizzano dati fisici per individuare nuove fondi di energia e dati atmosferici per prevedere eventi metereologici estremi. Le principali applicazioni e simulazioni sfruttano NVIDIA Magnum IO per accelerare i tempi di analisi. Magnum IO integra motori di accelerazione a livello hardware e bilanciamento intelligente, come RDMA, NVIDIA GPUDirect e NVIDIA SHARP, rafforzando l'elevata larghezza di banda e la latenza ultra bassa di NVIDIA InfiniBand e le GPU di rete NVLink.
In ambienti multi-tenant, le applicazioni utente potrebbero non essere a conoscenza di interferenze indiscriminate da parte del traffico di applicazioni vicine. Magnum IO, sulla più recente piattaforma NVIDIA Quantum-2 InfiniBand, offre funzionalità nuove e migliorate per mitigare l'impatto negativo sulle prestazioni di un utente. Ciò offre risultati ottimali, nonché le implementazioni HPC ed ML più efficienti su qualsiasi scala.
Librerie Magnum IO e app HPC
Le prestazioni VASP migliorano significativamente quando MPI viene sostituito con NCCL. UCX accelera le applicazioni di calcolo scientifico, come VASP, Chroma, MIA-AI, Fun3d, CP2K e Spec-HPC2021, per tempi di esecuzione di wall-clock più veloci.
NVIDIA HPC-X aumenta la disponibilità della CPU, la scalabilità delle applicazioni e l'efficienza del sistema per migliorare le prestazioni applicative, distribuite da vari ISV HPC. NCCL, UCX e HPC-X fanno tutti parte dell'HPC-SDK.
I Fast Fourier Transforms (FTT) sono ampiamente utilizzati in una vasta gamma di settori, dalla dinamica molecolare, l'elaborazione del segnale, fino alla fluidodinamica computazionale (CFD) e alle applicazioni multimediali wireless e ML. Utilizzando la libreria NVIDIA Shared Memory (NVSHMEM)™, cuFFTMp è indipendente dall'implementazione MPI e funziona a una velocità estrema, fattore fondamentale in quanto le prestazioni possono variare significativamente da un MPI all'altro.
La libreria Qualitative Data Analysis (QUDA) Lattice Quantum Chromodynamics può utilizzare NVSHMEM per le comunicazioni per ridurre i sovraccarichi della sincronizzazione tra CPU e GPU e migliorare la sovrapposizione di calcolo e comunicazione. Questo riduce la latenza e migliora enormemente la scalabilità.
Multi-nodo, multi-GPU: uso di NVIDIA cuFFTMp FFT su larga scala
Massima visualizzazione del volume interattivo - La simulazione a 150 TB dell'atterraggio su Marte della NASA
La classe emergente di modelli HPC exascale e da trilioni di parametri IA per attività come l'IA conversazionale sovrumana richiede mesi di training, anche su supercomputer. Adattare questo processo alla velocità dell'azienda per completare il training in pochi giorni richiede una comunicazione fluida e ad alta velocità tra ogni GPU in un cluster di server, in modo da poter scalare le prestazioni. La combinazione di NVIDIA NVLink, NVIDIA NVSwitch, le librerie NVIDIA Magnum IO e la forte scalabilità tra server offre velocità di training con IA fino a 9 volte su modelli MoE (Mixture of Experts). Questo consente ai ricercatori di addestrare modelli massicci alla velocità del business.
Librerie Magnum IO e integrazioni di deep learning
NCCL e altre librerie Magnum IO sfruttano in modo trasparente le più recenti GPU NVIDIA H100, NVLink, NVSwitch e le reti InfiniBand per fornire accelerazioni significative per i carichi di lavoro di deep learning, in particolare i sistemi recommender e il training di modelli linguistici di grandi dimensioni.
I vantaggi di NCCL includono tempi più rapidi per la precisione del training dei modelli, raggiungendo al contempo una larghezza di banda di interconnessione vicina al 100% tra server in un ambiente distribuito.
Magnum IO GPUDirect Storage (GDS) è stato abilitato nella libreria DALI (data Loading Library) tramite l'operatore di lettura Numpy. Il GDS aumenta le prestazioni fino a 7,2 volte in termini di inferenza con deep learning con DALI rispetto a Numpy.
Consentire ai ricercatori di continuare a superare i limiti del possibile con l'IA, richiede prestazioni potenti e scalabilità straordinaria. La combinazione tra rete NVIDIA Quantum-2 InfiniBand, NVLink, NVSwitch e lo stack software Magnum IO offre scalabilità istantanea per centinaia di migliaia di GPU che operano insieme.
Le prestazioni aumentano di 1,9 volte su LBANN con NVSHMEM rispetto a MPI
Le GPU vengono utilizzate per accelerare attività complesse e dispendiose in una vasta gamma di applicazioni, dalla grafica on-air alla ricostruzione di immagini stereoscopiche in tempo reale.
La tecnologia NVIDIA GPUDirect for Video consente all'hardware di terze parti di comunicare in modo efficiente con le GPU NVIDIA e di ridurre al minimo i problemi storici legati alla latenza. Con NVIDIA GPUDirect for Video, i dispositivi IO vengono completamente sincronizzati con la GPU e la CPU per ridurre al minimo lo spreco di cicli nella copia di dati dei dati tra i driver dei dispositivi.
GPUDirect Storage (GDS) si integra con cuCIM, un toolkit espandibile progettato per fornire IO accelerato da GPU, computer vision ed elaborazione di immagini primarie per immagini N-dimensionali con particolare attenzione alla diagnostica per immagini in ambito biomedico.
Nei due esempi seguenti, NVIDIA IndeX® viene utilizzato con GDS per accelerare la visualizzazione di set di dati molto grandi.
Visualizzare immagini microscopiche di cellule viventi in tempo reale con NVIDIA Clara™ Holoscan
> NVIDIA Magnum IO GitHub > NVIDIA GPUDirect Storage: un percorso diretto tra storage e memoria della GPU > Accelerazione dell'I/O nel data center moderno: I/O di rete > Accelerare i collettivi basati su team NVSHMEM 2.0 con NCCL > Ottimizzare il movimento dei dati nelle applicazioni GPU con l'ambiente di sviluppo NVIDIA Magnum IO > Accelerare il supercomputing cloud-native con Magnum IO > Accesso a MOFED
Iscriviti per ricevere novità e aggiornamenti su NVIDIA Magnum IO.
Facilita i trasferimenti IO direttamente nella memoria della GPU, rimuovendo i costosi colli di bottiglia del percorso dati da e verso la memoria CPU/di sistema. Evita il sovraccarico di latenza di una copia aggiuntiva tramite la memoria di sistema, che influisce sui trasferimenti più piccoli e riduce il carico sulla CPU operando con maggiore indipendenza.
SCOPRI DI PIÙ ›
Leggi il blog. GPUDirect Storage: un percorso diretto tra storage e memoria della GPU
Guarda il webinar: NVIDIA GPUDirect Storage: accelerare il percorso dei dati verso la GPU
Presenta in modo logico l'archiviazione in rete, ad esempio NVMe over Fabric (NVMe-oF), come unità NVMe locale, consentendo all'SO/hypervisor host di utilizzare un driver NVMe standard anziché un protocollo di archiviazione di rete remota.
Set di librerie e driver NIC ottimizzati per l'elaborazione rapida dei pacchetti nello spazio utente, fornendo framework e API comuni per applicazioni di rete ad alta velocità.
Fornisce l'accesso alla scheda di rete per leggere o scrivere su buffer di dati di memoria direttamente nei dispositivi peer. Consente alle applicazioni basate su RDMA di utilizzare la potenza di calcolo del dispositivo peer senza la necessità di copiare i dati tramite la memoria dell'host.
Framework di comunicazione open source e di produzione per applicazioni basate su dati e ad alte prestazioni. Include un'interfaccia di basso livello che espone le operazioni di rete fondamentali supportate dall'hardware sottostante. Il pacchetto include: librerie MPI e SHMEM, Unified Communication X (UCX), NVIDIA SHARP, KNEM e benchmark MPI standard.
Introduce i principi di comunicazione basati sulla topologia attraverso una stretta sincronizzazione tra i processori comunicanti. NCCL accelera le operazioni collettive e riduce i tempi di esecuzione wall-clock. NCCL è integrata con vari componenti RAPIDs ML, Rapids Analytics Framework Toolkit (RAFT) e DASK-cuML. cuML è una suite di librerie che implementano algoritmi ML e funzioni primitive matematiche. NCCL è integrata con PyTorch, NVIDIA Merlin™ HugeCTR, NVIDIA Nemo Megatron, NVIDIA Riva, container TensorFlow e container MXNET.
NVSHMEM è il modello di programmazione che consente alle applicazioni di emettere accessi granulari nell'interconnessione scale-up NVLink distribuita di quarta generazione, sovrapponendola al calcolo. Questo consente una significativa accelerazione per le applicazioni di calcolo scientifico distribuite, come cuFFT con NVSHMEM.
NVSHMEM offre un'interfaccia di programmazione parallela basata sullo standard OpenSHMEM, creando uno spazio di indirizzi globale per i dati che investono la memoria di più GPU su più server.
UCX è un framework di comunicazione open-source e di produzione per applicazioni ad alte prestazioni e data-centric. Include un'interfaccia di basso livello che espone le operazioni di rete fondamentali supportate dall'hardware sottostante. Include inoltre un'interfaccia di alto livello per creare protocolli disponibili in MPI, OpenSHMEM, PGAS, Spark e altre applicazioni di deep learning e ad alte prestazioni.
UCX offre comunicazioni punto-punto accelerate da GPU, con le migliori prestazioni, utilizzando al contempo la connettività NVLINK, PCIe, Ethernet o InfiniBand tra gli elementi di calcolo della GPU.
Il set di funzionalità che accelera lo switch e l'elaborazione dei pacchetti. ASAP2 riduce il carico di dati spostandolo insieme alle misure di sicurezza dalla CPU nella rete in modo da aumentare l'efficienza, il controllo e isolare i dati da applicazioni dannose.
La DPU NVIDIA® Mellanox BlueField® riduce il carico delle attività critiche di rete, sicurezza e storage sulla CPU ed è la soluzione migliore per gestire prestazioni, efficienza della rete e problemi di sicurezza informatica nel data center moderno.
Riduce i tempi di comunicazione MPI e migliora la sovrapposizione tra calcolo e comunicazioni. Utilizzato dagli adattatori NVIDIA Mellanox InfiniBand per scaricare l'elaborazione dei messaggi MPI dal computer host sulla scheda di rete, consentendo una copia zero dei messaggi MPI.
Migliora le prestazioni degli algoritmi di riduzione e aggregazione dei dati, ad esempio MPI, SHMEM, NCCL e altri, scaricando gli algoritmi dalla GPU o dalla CPU agli elementi di commutazione di rete o DPU ed eliminando la necessità di inviare dati più volte tra endpoint InfiniBand e NVLink 4 Gen. L'integrazione SHARP aumenta le prestazioni di NCCL di 4 volte e dimostra un aumento delle prestazioni di 7 volte per la latenza dei collettivi MPI. SHARP è supportato da UFM, HPC-X, NCCL e dalla maggior parte dei pacchetti MPI basati su standard di settore.
Integra visibilità olistica, risoluzione dei problemi e DevOps nella rete del tuo data center moderno con NVIDIA NetQ™, un set di strumenti per operazioni di rete moderno e altamente scalabile che convalida i fabric NVIDIA® Cumulus® Linux e SONiC in tempo reale.
Fornisce il debug, il monitoraggio, la gestione e il provisioning efficiente di fabric nei data center per InfiniBand. Supporta la telemetria di rete in tempo reale con analisi e dati basati su IA.