Il sottosistema IO per i data center moderni e accelerati da GPU
La nuova unità di calcolo è il data center e le sue fondamenta le GPU NVIDIA e le reti NVIDIA. Il calcolo accelerato richiede l'input/output accelerato (IO) per massimizzare le prestazioni. NVIDIA Magnum IO™, il sottosistema IO del data center moderno, è l'architettura per il data center IO parallelo, asincrono e intelligente, che massimizza le prestazioni di storage e l'IO di rete per un'accelerazione su più nodi e più GPU.
Magnum IO, il sottosistema IO per i data center, introduce i nuovi miglioramenti necessari per accelerare l'I/O e le comunicazioni che supportano i data center multi-tenant, noto come Magnum IO per il supercomputing cloud-native.
Magnum IO GPUDirect su una rete InfiniBand consente la rivoluzionaria architettura video volumetrica distribuita di Verizon. Collocando la tecnologia in centri di calcolo Edge, situati nei centri sportivi negli Stati Uniti e nelle strutture Verizon, sono in grado di portare esperienze 3D ai media e offrire nuove opzioni giocare.
Ignora la CPU per consentire l'IO diretto tra memoria della GPU, rete e storage, ottenendo una larghezza di banda 10 volte superiore.
Elimina i conflitti di utilizzo della CPU per creare un sistema accelerato da GPU più bilanciato e raggiungere picchi di banda IO fino con un numero di core della CPU fino a 10 volte inferiore e un utilizzo della CPU inferiore di 30 volte.
Fornisce l'implementazione ottimizzata per piattaforme attuali e future, a prescindere che il trasferimento di dati sia granulare e sensibile alla latenza, alla banda o entrambe.
Magnum IO utilizza IO di storage, IO di rete IO, calcolo in rete e gestione IO per semplificare e accelerare il movimento, l'accesso e la gestione dei dati per sistemi multi-GPU e multi-nodo. Magnum IO supporta le librerie NVIDIA CUDA-X™ e sfrutta al meglio una gamma di topologie hardware NVIDIA GPU e NVIDIA Networking per ottenere un throughput ottimale e una bassa latenza.
[Developer Blog] Magnum IO - Accelerating IO in the Modern Data Center
Nei sistemi multi-nodo, multi-GPU, la lentezza della CPU, le prestazioni a thread singolo complicano l'accesso ai dati da dispositivi di storage locali o remoti. Con l'accelerazione dell'IO di storage, la GPU ignora la memoria della CPU e del sistema e accede allo storage remoto tramite schede NIC 8X 200 GB/sec, raggiungendo fino a 1,6 Terabit/s di banda di archiviazione raw.
Tecnologie incluse:
Il fabric NVIDIA NVLink® e l'accelerazione dell'IO basata su RDMA che riduce il carico di IO, ignorando la CPU e abilitando trasferimenti diretti da GPU a GPU ad alta velocità.
Il calcolo in rete garantisce l'elaborazione all'interno della rete, eliminando la latenza prodotta con l'attraversamento degli end-point i gli ostacoli lungo il percorso. Le unità di elaborazione dati (DPU) introducono il calcolo di rete software-defined e accelerato da hardware, che include motori di elaborazione dati preconfigurati e motori programmabili.
Per fornire ottimizzazioni IO su calcolo, rete e storage, gli utenti necessitano di telemetria avanzata e tecniche di risoluzione dei problemi efficaci. Le piattaforme di gestione Magnum IO consentono agli operatori di ricerca e data center industriali di eseguire in modo efficiente, monitorare, gestire e mantenere preventivamente i fabric moderni.
Magnum IO si interfaccia con le librerie NVIDIA CUDA-X per HPC e IA per accelerare l'IO in una vasta gamma di casi d'uso, dall'IA alla visualizzazione scientifica.
Oggi, la scienza dei dati e il machine learning (ML) sono i principali segmenti di calcolo usati del mondo. Miglioramenti anche modesti dell'accuratezza dei modelli di ML predittivi possono tradursi in miliardi di dollari in termini di profitti. Per migliorare la precisione, la libreria RAPIDS Accelerator dispone di un sistema shuffle Apache Spark integrato basato su UCX che può essere configurato per sfruttare le funzionalità di comunicazione GPU-GPU e RDMA. Insieme a NVIDIA Networking, il software Magnum IO, Spark 3.0 accelerato da GPU e NVIDIA RAPIDS™, la piattaforma per data center NVIDIA è in grado di accelerare questi enormi carichi di lavoro a livelli mai visti prima in termini di prestazioni ed efficienza.
Adobe raggiunge una velocità 7 volte superiore nel training dei modelli con Spark 3.0 su Databricks per un risparmio del 90%
Per sfruttare le scoperte di nuova generazione, gli scienziati usano simulazioni per comprendere al meglio il comportamento delle molecole e trovare nuovi farmaci, analizzano dati fisici per individuare nuove fondi di energia e dati atmosferici per prevedere eventi metereologici estremi. Magnum IO integra motori di accelerazione a livello hardware e bilanciamento intelligente, come RDMA, GPUDirect e NVIDIA SHARP, rafforzando l'elevata larghezza di banda 400 GB/s e la latenza ultra bassa di NVIDIA Quantum 2 InfiniBand.
Con la multi-tenancy, le applicazioni utente potrebbero non essere a conoscenza di interferenze indiscriminate da parte del traffico di applicazioni vicine. Magnum IO, sulla più recente piattaforma NVIDIA Quantum 2 InfiniBand, offre funzionalità nuove e migliorate per mitigare l'impatto negativo sulle prestazioni di un utente. Ciò offre risultati ottimali, nonché le implementazioni HPC (High Performance Computing) e di machine learning più efficienti su qualsiasi scala.
Massima visualizzazione del volume interattivo - La simulazione a 150 TB dell'atterraggio su Marte della NASA
I modelli IA diventano sempre più complessi nel tentativo di affrontare nuove sfide come la precisione dell'IA conversazionale e i sistemi di suggerimenti avanzati. I modelli di IA conversazionale come Megatron-BERT di NVIDIA assorbono una potenza di calcolo 3000 volte superiore rispetto ai modelli di classificazione delle immagini come ResNet-50. Consentire ai ricercatori di continuare a superare i limiti del possibile con l'IA, richiede prestazioni potenti e scalabilità straordinaria. La combinazione di reti InfiniBand HDR 200Gb/sec e lo stack software Magnum IO offre una scalabilità efficiente a migliaia di GPU in un singolo cluster.
Training su deep learning nei data center di Facebook: progettazione di sistemi scale-up e scale-out
Iscriviti per ricevere notizie e aggiornamenti.
Facilita i trasferimenti IO direttamente nella memoria della GPU, rimuovendo i costosi colli di bottiglia del percorso dati da e verso la memoria CPU/di sistema. Evita il sovraccarico di latenza di una copia aggiuntiva tramite la memoria di sistema, che influisce sui trasferimenti più piccoli e riduce il carico sulla CPU operando con maggiore indipendenza.
SCOPRI DI PIÙ ›
Leggi il blog. GPUDirect Storage: un percorso diretto tra storage e memoria della GPU
Guarda il webinar: NVIDIA GPUDirect Storage: accelerare il percorso dei dati verso la GPU
Presenta in modo logico l'archiviazione in rete, ad esempio NVMe over Fabric (NVMe-oF), come unità NVMe locale, consentendo all'SO/hypervisor host di utilizzare un driver NVMe standard anziché un protocollo di archiviazione di rete remota.
Set di librerie e driver NIC ottimizzati per l'elaborazione rapida dei pacchetti nello spazio utente, fornendo framework e API comuni per applicazioni di rete ad alta velocità.
Fornisce l'accesso alla scheda di rete per leggere o scrivere su buffer di dati di memoria direttamente nei dispositivi peer. Consente alle applicazioni basate su RDMA di utilizzare la potenza di calcolo del dispositivo peer senza la necessità di copiare i dati tramite la memoria dell'host.
Framework di comunicazione open source e di produzione per applicazioni basate su dati e ad alte prestazioni. Include un'interfaccia di basso livello che espone le operazioni di rete fondamentali supportate dall'hardware sottostante. Il pacchetto include: librerie MPI e SHMEM, Unified Communication X (UCX), NVIDIA SHARP, KNEM e benchmark MPI standard.
Introduce i principi di comunicazione basati sulla topologia attraverso una stretta sincronizzazione tra i processori comunicanti.
Offre un'interfaccia di programmazione parallela basata sullo standard OpenSHMEM, creando uno spazio di indirizzi globale per i dati che investono la memoria di più GPU su più server.
Leggi il blog: Accelerare i collettivi basati su team NVSHMEM 2.0 con NCCL
Open-source, production-grade communication framework for data-centric and high performance applications. Includes a low-level interface that exposes fundamental network operations supported by underlying hardware. Also includes a high-level interface to construct protocols found in MPI, OpenSHMEM, PGAS, Spark, and other high performance and deep learning applications.
LEARN MORE ›
The set of features that accelerate switch and packet processing. ASAP2 offloads data steering and security from the CPU into the network boosts efficiency, adds control, and isolates them from malicious applications.
La DPU NVIDIA® BlueField® riduce il carico delle attività critiche di rete, sicurezza e storage sulla CPU ed è la soluzione migliore per gestire prestazioni, efficienza della rete e problemi di sicurezza informatica nel data center moderno.
Riduce i tempi di comunicazione MPI e migliora la sovrapposizione tra calcolo e comunicazioni. Utilizzato dagli adattatori NVIDIA Mellanox InfiniBand per scaricare l'elaborazione dei messaggi MPI dal computer host sulla scheda di rete, consentendo una copia zero dei messaggi MPI.
Migliora le prestazioni degli algoritmi di riduzione e aggregazione dei dati, ad esempio MPI, SHMEM, NCCL e altri, scaricando gli algoritmi dalla GPU o dalla CPU agli elementi di commutazione di rete ed eliminando la necessità di inviare dati più volte tra endpoint. L'integrazione nitida aumenta le prestazioni di NCCL di 4 volte e dimostra un aumento delle prestazioni di 7 volte per la latenza dei collettivi MPI.
Consente l'orchestrazione della rete, il provisioning, la gestione delle configurazioni, la gestione delle attività, la visibilità approfondita sullo stato dei fabric, la razionalizzazione del traffico e la gestione delle soluzioni Ethernet.
Fornisce il debug, il monitoraggio, la gestione e il provisioning efficiente di fabric nei data center per InfiniBand. Supporta la telemetria di rete in tempo reale con analisi e dati basati su IA.