La più potente piattaforma di supercomputing IA end-to-end
Set di dati massicci, dimensioni esplosive dei modelli e simulazioni complesse richiedono più GPU con connessioni estremamente veloci e stack software completamente accelerato. La piattaforma di supercomputing NVIDIA HGX™ AI mette insieme tutta la potenza delle GPU NVIDIA, NVIDIA® NVLink®, il networking di NVIDIA Infiniband e uno stack software NVIDIA AI e HPC completamente ottimizzato disponibile dal catalogo NVIDIA NGC™ per garantire le massime prestazioni applicative. Con le sue prestazioni e la sua flessibilità end-to-end, NVIDIA HGX permette a ricercatori e scienziati di combinare simulazioni, analisi dei dati e IA guidare il progresso nella scienza.
NVIDIA HGX combina GPU NVIDIA A100 Tensor Core con interconnessioni ad alta velocità per creare i server più potenti al mondo. Con 16 GPU A100, HGX arriva a 1,3 terabyte (TB) di memoria GPU e oltre 2 terabyte al secondo (TB/sec) di banda di memoria, per un'accelerazione senza precedenti.
Rispetto alla precedenti generazioni, HGX offre un'accelerazione IA fino a 20 volte superiore con Tensor Float 32 (TF32) e una velocità di 2,5 superiore in HPC con FP64. NVIDIA HGX offre fino a 10 petaFLOPS, creando la piattaforma server scale-up accelerata più potente al mondo per IA e HPC.
Training DLRM
DLRM on HugeCTR framework, precision = FP16 | NVIDIA A100 80GB batch size = 48 | NVIDIA A100 40GB batch size = 32 | NVIDIA V100 32GB batch size = 32.
I modelli di deep learning stanno esplodendo in termini di dimensioni e complessità e richiedono un sistema con grandi quantità di memoria, una potenza di calcolo enorme e interconnessioni veloci per assicurare la scalabilità. Con NVIDIA NVSwitch™ che fornisce comunicazioni con GPU ad alta velocità e complete, HGX è in grado di gestire i modelli IA più avanzati. Con le GPU A100 80GB, la memoria della GPU è raddoppiata, offrendo fino a 1,3 TB di memoria in un singolo HGX. I carichi di lavoro emergenti con modelli di grandi dimensioni, come i DLRM (modelli di raccomandazioni basati su deep learning), con di enormi tabelle di dati, vengono accelerati fino a 3 volte su HGX basati su GPU A100 40GB.
Benchmark di analisi dei big data | 30 query retail analitiche, ETL, ML, NLP su dataset da 10 TB | V100 32GB, RAPIDS/Dask | A100 40GB e A100 80GB, RAPIDS/Dask/BlazingSQL
I modelli di machine learning richiedono caricamento, conversione ed elaborazione di set di dati molto voluminosi per ricavare informazioni essenziali. Con fino a 1,3 TB di memoria unificata e le comunicazioni tramite GPU con NVSwitch, HGX basata su GPU A100 80GB offre la capacità di caricare ed eseguire calcoli su enormi set di dati per ricavare informazioni fruibili rapidamente.
Su un benchmark di analisi dei big data, la A100 80GB ha fornito informazioni con un throughput 2 volte superiore rispetto alla A100 40GB, il che la rende ideale per i carichi di lavoro emergenti con dimensioni di set di dati in esplosione.
Le applicazioni HPC devono eseguire un'enorme quantità di calcoli al secondo. L'aumento della densità di ciascun nodo server riduce significativamente il numero di server necessari, con enormi risparmi di costi, alimentazione e spazio nel data center. Per le simulazioni, la moltiplicazione di matrici ad alta dimensione richiede un processore che recuperi i dati dai sistemi connessi per il calcolo, il che rende la connessione delle GPU tramite NVIDIA NVLink l'opzione ideale. Le applicazioni HPC possono inoltre sfruttare la precisione TF32 della A100 per ottenere un throughput fino a 11 volte superiore in quattro anni per operazioni di moltiplicazione a matrici intense a precisione singola.
Un sistema HGX basato su GPU A100 80GB garantisce un throughput 2 volte superiore rispetto alle GPU A100 40GB su Quantum Espresso, una simulazione di materiali, aumentando i tempi di recupero delle informazioni.
Principali applicazioni HPC
Media geometrica di accelerazioni dell'applicazione rispetto a P100: applicazione benchmark: Amber [PME-Cellulose_NVE], Chroma [szscl21_24_128], GROMACS [ADH Dodec], MILC [Apex Medium], NAMD [stmv_nve_cuda], PyTorch (BERT Large Fine Tuner], Quantum Espresso [AUSURF112-jR]; Random Forest FP32 [make_blobs (160000 x 64: 10)], TensorFlow [ResNet-50], VASP 6 [Si Huge], | Nodo GPU con CPU dual-socket con 4 GPU NVIDIA P100, V100 o A100.
Quantum Espresso
Quantum Espresso measured using CNT10POR8 dataset, precision = FP64.
NVIDIA HGX è disponibile in schede di base singole con quatto o otto GPU H100 e 80 GB di memoria della GPU o GPU A100, ciascuna con 40 GB o 80 GB di memoria della GPU. La configurazione a 4 GPU è completamente interconnessa con NVLink e la configurazione a 8 GPU è interconnessa con NVIDIA NVSwitch. Le schede base del server HGX A100 a 8 GPU possono essere combinate utilizzando un'interconnessione NVSwitch per creare un potente nodo singolo a 16 GPU.
HGX è disponibile anche in fattore di forma PCIe per una semplice distribuzione di tipo modulare, che offre le massime prestazioni di calcolo su server mainstream.
Questa potente combinazione di hardware e software pone le basi per la piattaforma di supercomputing IA definitiva.
Con HGX, è anche possibile includere la rete NVIDIA per accelerare e ridurre il carico dei trasferimenti di dati, garantendo un utilizzo razionalizzato delle risorse informatiche. Gli adattatori e gli switch smart riducono la latenza, aumentano l'efficienza, migliorano la sicurezza e semplificano l'automazione nel data center per accelerare le prestazioni complessive delle applicazioni.
Il data center è la nuova unità di calcolo e la rete HPC svolge un ruolo fondamentale per la scalabilità delle prestazioni applicative. NVIDIA InfiniBand sta spianando la strada con il networking software-defined, l'accelerazione del calcolo in rete, l'accesso diretto alla memoria remota (RDMA) e con velocità e feed più rapidi.
NVIDIA HGX-1 e HGX-2 sono architetture di riferimento che standardizzano la progettazione di data center che accelerano L'IA e l'HPC. Basate su schede NVIDIA SXM2 V100, con tecnologie di interconnessione NVIDIA NVLink e NVSwitch, le architetture di riferimento HGX vantano un design modulare che funziona perfettamente nei data center hyperscale e ibridi per fornire fino a 2 petaFLOPS di potenza di calcolo per un percorso semplice e rapido per IA e HPC.