NVIDIA Magnum IO

Il sottosistema IO per i data center moderni e accelerati da GPU

Massimizzare lo spazio di archiviazione nel data center e le prestazioni IO della rete

La nuova unità di calcolo è il data center e le sue fondamenta le GPU NVIDIA e le reti NVIDIA. Il calcolo accelerato richiede l'input/output accelerato (IO) per massimizzare le prestazioni. NVIDIA Magnum IO™, il sottosistema IO del data center moderno, è l'architettura per il data center IO parallelo, asincrono e intelligente, che massimizza le prestazioni di storage e l'IO di rete per un'accelerazione su più nodi e più GPU.

Vantaggi principali di Magnum IO

Prestazioni IO ottimizzate

Ignora la CPU per consentire l'IO diretto tra memoria della GPU, rete e storage, ottenendo una larghezza di banda 10 volte superiore.

Bilanciamento e utilizzo del sistema

Elimina i conflitti di utilizzo della CPU per creare un sistema accelerato da GPU più bilanciato e raggiungere picchi di banda IO fino con un numero di core della CPU fino a 10 volte inferiore e un utilizzo della CPU inferiore di 30 volte.

Integrazione fluida

Fornisce l'implementazione ottimizzata per piattaforme attuali e future, a prescindere che il trasferimento di dati sia granulare e sensibile alla latenza, alla banda o entrambe.

Stack di ottimizzazione Magnum IO

Magnum IO utilizza IO di storage, IO di rete IO, calcolo in rete e gestione IO per semplificare e accelerare il movimento, l'accesso e la gestione dei dati per sistemi multi-GPU e multi-nodo. Magnum IO supporta le librerie NVIDIA CUDA-X™ e sfrutta al meglio una gamma di topologie hardware NVIDIA GPU e NVIDIA Networking per ottenere un throughput ottimale e una bassa latenza.

 [Developer Blog] Magnum IO - Accelerating IO in the Modern Data Center

Magnum IO Optimization Stack

IO di storage

Nei sistemi multi-nodo, multi-GPU, la lentezza della CPU, le prestazioni a thread singolo complicano l'accesso ai dati da dispositivi di storage locali o remoti. Con l'accelerazione dell'IO di storage, la GPU ignora la memoria della CPU e del sistema e accede allo storage remoto tramite schede NIC 8X 200 GB/sec, raggiungendo fino a 1,6 Terabit/s di banda di archiviazione raw.

Tecnologie incluse:

IO di rete

Il fabric NVIDIA NVLink® e l'accelerazione dell'IO basata su RDMA che riduce il carico di IO, ignorando la CPU e abilitando trasferimenti diretti da GPU a GPU ad alta velocità.

Tecnologie incluse:

Calcolo in rete

Il calcolo in rete garantisce l'elaborazione all'interno della rete, eliminando la latenza prodotta con l'attraversamento degli end-point i gli ostacoli lungo il percorso. Le unità di elaborazione dati (DPU) introducono il calcolo di rete software-defined e accelerato da hardware, che include motori di elaborazione dati preconfigurati e motori programmabili.

Tecnologie incluse:

Gestione IO

Per fornire ottimizzazioni IO su calcolo, rete e storage, gli utenti necessitano di telemetria avanzata e tecniche di risoluzione dei problemi efficaci. Le piattaforme di gestione Magnum IO consentono agli operatori di ricerca e data center industriali di eseguire in modo efficiente, monitorare, gestire e mantenere preventivamente i fabric moderni.

Tecnologie incluse:

Accelerare l'IO in tutte le applicazioni

Magnum IO si interfaccia con le librerie NVIDIA CUDA-X per HPC e IA per accelerare l'IO in una vasta gamma di casi d'uso, dall'IA alla visualizzazione scientifica.

  • Analisi dei dati
  • Calcolo ad alte prestazioni (HPC)
  • Deep learning
Data Analytics

Analisi dei dati

Oggi, la scienza dei dati e il machine learning (ML) sono i principali segmenti di calcolo usati del mondo. Miglioramenti anche modesti dell'accuratezza dei modelli di ML predittivi possono tradursi in miliardi di dollari in termini di profitti. Per migliorare la precisione, la libreria RAPIDS Accelerator dispone di un sistema shuffle Apache Spark integrato basato su UCX che può essere configurato per sfruttare le funzionalità di comunicazione GPU-GPU e RDMA. Insieme a NVIDIA Networking, il software Magnum IO, Spark 3.0 accelerato da GPU e NVIDIA RAPIDS™, la piattaforma per data center NVIDIA è in grado di accelerare questi enormi carichi di lavoro a livelli mai visti prima in termini di prestazioni ed efficienza.

 Adobe raggiunge una velocità 7 volte superiore nel training dei modelli con Spark 3.0 su Databricks per un risparmio del 90%

 Prestazioni TPCx-BB di 19,5 volte più veloci, UCX e il software RAPIDS per la scienza dei dati raggiungono picchi mai visti su NVIDIA DGX™ A100

High Performance Computing

Calcolo ad alte prestazioni (HPC)

L'HPC è un pilastro fondamentale della scienza moderna. Per sfruttare le scoperte di nuova generazione, gli scienziati usano simulazioni per comprendere al meglio il comportamento delle molecole e trovare nuovi farmaci, analizzano dati fisici per individuare potenziali nuove fondi di energia e dati atmosferici per prevedere e prepararsi a eventi metereologici estremi. Magnum IO integra motori di accelerazione a livello hardware e bilanciamento intelligente, come RDMA, NVIDIA GPUDirect® e le funzionalità del protocollo scalabile NVIDIA SHARP™, rafforzando l'elevata larghezza di banda e la latenza ultra bassa di InfiniBand HDR 200Gb/sec. Questo garantisce le massime prestazioni e implementazioni HPC e ML più efficienti su qualsiasi scala.

Massima visualizzazione del volume interattivo - La simulazione a 150 TB dell'atterraggio su Marte della NASA

Deep Learning

Deep Learning

I modelli IA diventano sempre più complessi nel tentativo di affrontare nuove sfide come la precisione dell'IA conversazionale e i sistemi di suggerimenti avanzati. I modelli di IA conversazionale come Megatron-BERT di NVIDIA assorbono una potenza di calcolo 3000 volte superiore rispetto ai modelli di classificazione delle immagini come ResNet-50. Consentire ai ricercatori di continuare a superare i limiti del possibile con l'IA, richiede prestazioni potenti e scalabilità straordinaria. La combinazione di reti InfiniBand HDR 200Gb/sec e lo stack software Magnum IO offre una scalabilità efficiente a migliaia di GPU in un singolo cluster. 

Training su deep learning nei data center di Facebook: progettazione di sistemi scale-up e scale-out

Iscriviti per ricevere notizie e aggiornamenti.