Accelerazioni senza precedenti in ogni ordine di grandezza
La GPU NVIDIA A100 Tensor Core offre accelerazione senza precedenti in ogni ordine di grandezza per alimentare i data center elastici con le più alte prestazioni nel mondo con IA, analisi dei dati e HPC. Basata sull'architettura NVIDIA Ampere, la A100 è il motore della piattaforma per data center NVIDIA. La A100 offre prestazioni fino a 20 volte superiori rispetto alla precedente generazione e può essere partizionata in sette istanze GPU per adattarsi dinamicamente all'evolversi delle esigenze. Disponibile nelle versioni a 40 e 80 GB di memoria, la A100 80GB debutta con la banda di memoria più veloce del mondo a oltre 2 terabyte al secondo (TB/s) per eseguire i modelli e i set di dati più voluminosi.
La A100 fa parte della soluzione per data center NVIDIA completa che integra strumenti hardware, di rete, software, librerie, modelli e applicazioni IA ottimizzati dall'NGC™. Come piattaforma IA e HPC completa più potente per data center, consente ai ricercatori di fornire risultati in tempo reale e distribuire soluzioni nell'ambiente di produzione in modo scalabile.
Training DLRM
DLRM su framework HugeCTR, precisione = FP16 | Dimensioni batch NVIDIA A100 80GB = 48 | Dimensioni batch NVIDIA A100 40GB = 32 | Dimensioni batch NVIDIA V100 32GB = 32.
I modelli IA diventano sempre più complessi nel tentativo di affrontare nuove sfide come l'IA conversazionale. Il training richiede un'enorme potenza di elaborazione e massima scalabilità.
I Tensor Cores di nella NVIDIA A100 con precisione Tensor Float (TF32) offrono prestazioni 20 volte superiori rispetto alla NVIDIA Volta, senza alcuna alterazione del codice, e un ulteriore incremento pari a 2 volte con precisione mista e FP16. Con NVIDIA® NVLink®, NVIDIA NVSwitch™, PCI Gen4, NVIDIA® Mellanox® InfiniBand® e all'SDK NVIDIA Magnum IO™, è possibile scalare a migliaia di GPU A100.
Un carico di lavoro di training come BERT può essere risolto in meno di un minuto con l'impiego di 2.048 GPU A100, un record di tempistiche mondiale.
Per i modelli più grandi con enormi tabelle di dati come i modelli di recommender basati su deep learning (DLRM), la A100 80GB raggiunge fino a 1,3 TB di memoria unificata per nodo e offre fino un aumento della produttività su A100 40GB fino a 3 volte superiore.
NVIDIA si conferma leader nel benchmark MLPerf, con vari record di prestazioni nel settore per il training con IA.
La A100 introduce straordinarie funzionalità per ottimizzare i carichi di lavoro di inferenza. Accelera una gamma completa di precisioni, dalla FP32 alla INT4. La tecnologia Multi-Istance GPU (MIG) consente a più reti di operare simultaneamente su una singola A100 per un utilizzo ottimale delle risorse di elaborazione. Inoltre, il supporto per la densità strutturale offre prestazioni fino a 2 volte superiori oltre ad altri guadagni in termini di prestazioni in inferenza della A100.
Su modelli IA conversazionali all'avanguardia come BERT, la A100 accelera il throughput di inferenza fino a 249 volte rispetto alle CPU.
Nei modelli più complessi limitati dalle dimensioni batch, come RNN-T per il riconoscimento vocale automatico, la capacità di memoria aumentata della A100 80GB raddoppia le dimensioni di ogni MIG e offre un throughput fino a 1,25 volte superiore rispetto alla A100 40GB.
Le prestazioni leader di mercato di NVIDIA sono state dimostrate nel benchmark MLPerf Inference. La A100 offre prestazioni 20 volte superiori per espandere ulteriormente questa leadership.
BERT-LARGE Inference
BERT-Large Inference | Solo CPU: Dual Xeon Gold 6240 a 2.60 GHz, precisione = FP32, dimensioni batch = 128 | V100: NVIDIA TensorRT™ (TRT) 7.2, precisione = INT8, dimensioni batch = 256 | A100 40GB e 80GB, dimensioni = 256, precisione = INT8 con dispersione.
Inferenza RNN-T: flusso singolo
MLPerf 0.7 RNN-T misurato con (1/7) MIG. Framework: TensorRT 7.2, dataset = LibriSpeech, precisione = FP16.
Per arrivare a scoperte all'avanguardia, gli scienziati cercano di capire meglio il mondo che ci circonda.
NVIDIA A100 introduce i Tensor Core a doppia precisione per offrire il più grande passo avanti nelle prestazioni HPC dall'introduzione delle GPU. Con gli 80 GB della memoria GPU più veloce, i ricercatori possono abbattere i tempi di una simulazione di 10 ore a precisione doppia fino a meno di quattro ore sulla A100. Le applicazioni HPC possono inoltre sfruttare la precisione TF32 per ottenere un throughput fino a 11 volte superiore per operazioni di moltiplicazione a matrici intense a precisione singola.
Per le applicazioni HPC con i set di dati più voluminosi, la memoria aggiuntiva di A100 80GB offre fino al doppio in termini di aumento del throughput con Quantum Espresso, una simulazione di materiali. Questa enorme memoria e la larghezza di banda senza precedenti rendono la A100 80GB la piattaforma ideale per i carichi di lavoro di nuova generazione.
Principali applicazioni HPC
Media geometrica di accelerazioni dell'applicazione rispetto a P100: applicazione benchmark: Amber [PME-Cellulose_NVE], Chroma [szscl21_24_128], GROMACS [ADH Dodec], MILC [Apex Medium], NAMD [stmv_nve_cuda], PyTorch (BERT Large Fine Tuner], Quantum Espresso [AUSURF112-jR]; Random Forest FP32 [make_blobs (160000 x 64: 10)], TensorFlow [ResNet-50], VASP 6 [Si Huge], | Nodo GPU con CPU dual-socket con 4 GPU NVIDIA P100, V100 o A100.
Quantum Espresso
Quantum Espresso misurato con dataset CNT10POR8, precisione = FP64.
Benchmark di analisi dei big data | 30 query retail analitiche, ETL, ML, NLP su dataset da 10 TB | CPU: Intel Xeon Gold 6252 2.10 GHz, Hadoop | V100 32GB, RAPIDS/Dask | A100 40GB e A100 80GB, RAPIDS/Dask/BlazingSQL
Gli esperti di dati devono poter analizzare, visualizzare e convertire enormi set di dati in informazioni. Tuttavia, le soluzioni scale-out spesso si trasformano in una palude poiché i set di dati sono disseminati su più server.
I server accelerati con A100 offrono la necessaria potenza di calcolo, oltre a un'enorme memoria, con una banda superiore a 2 TB/sec, e scalabilità con NVIDIA® NVLink® e NVSwitch™, per affrontare questi carichi di lavoro. Insieme a InfiniBand, NVIDIA Magnum IO™ e la suite RAPIDS™ di librerie open-source, tra cui RAPIDS Accelerator per Apache Spark per l'analisi dei dati accelerata da GPU, la piattaforma per data center NVIDIA è in grado di accelerare questi enormi carichi di lavoro a livelli senza precedenti in termini di prestazioni ed efficienza.
Su un benchmark di analisi dei big data, la A100 80GB ha fornito informazioni con un throughput 83 volte superiore rispetto alle CPU e prestazioni 2 volte superiori rispetto alla A100 40GB, il che la rende ideale per i carichi di lavoro emergenti con dimensioni di set di dati in esplosione.
BERT Large Inference
BERT Large Inference | NVIDIA TensorRT™ (TRT) 7.1 | GPU NVIDIA T4 Tensor Core: TRT 7.1, precisione = INT8, dimensioni batch = 256 | V100: TRT 7.1, precisione = FP16, dimensioni batch = 256 | A100 con 1 o 7 istanze MIG di 1g.5gb: dimensioni batch = 94, precisione = INT8 con dispersione.
La A100 con MIG massimizza l'utilizzo dell'infrastruttura GPU accelerata. Con MIG, una GPU A100 può essere partizionata in ben sette istanze indipendenti, consentendo a più utenti di accedere all'accelerazione con GPU. Con A100 40GB, ogni istanza MIG può ottenere fino a 5 GB e con la una maggiore capacità di memoria della A100 80GB, tali dimensioni raddoppiano a 10 GB.
MIG funziona con Kubernetes, container e virtualizzazione server basata su hypervisor. MIG consente ai gestori dell'infrastruttura di offrire una GPU di dimensioni adeguate con qualità del servizio garantita (QoS) per ogni processo, estendendo la portata delle risorse di elaborazione accelerate a tutti gli utenti.
Un sistema certificato da NVIDIA, composto da A100 con SmartnNIC e DPU NVIDIA Mellanox, convalidato per prestazioni, funzionalità, scalabilità e sicurezza, consente alle aziende di distribuire facilmente soluzioni complete per i carichi di lavoro IA dal catalogo NVIDIA NGC.
Prestazioni straordinarie per tutti i carichi di lavoro.
Massima versatilità per tutti i carichi di lavoro.
* Con densità ** GPU SXM con schede server HGX A100, GPU; PCIe con NVLink Bridge per fino a 2 GPU
Scopri le novità dell'architettura NVIDIA Ampere e la sua implementazione nella GPU NVIDIA A100.