GPU NVIDIA A100 Tensor Core

Accelerazioni senza precedenti in ogni ordine di grandezza

Accelerare il lavoro più importante del nostro tempo

La GPU NVIDIA A100 Tensor Core offre accelerazione senza precedenti in ogni ordine di grandezza per alimentare i data center elastici con le più alte prestazioni nel mondo con IA, analisi dei dati e HPC. Basata sull'architettura NVIDIA Ampere, la A100 è il motore della piattaforma per data center NVIDIA. La A100 offre prestazioni fino a 20 volte superiori rispetto alla precedente generazione e può essere partizionata in sette istanze GPU per adattarsi dinamicamente all'evolversi delle esigenze. Disponibile nelle versioni a 40 e 80 GB di memoria, la A100 80GB debutta con la banda di memoria più veloce del mondo a oltre 2 terabyte al secondo (TB/s) per eseguire i modelli e i set di dati più voluminosi. 

La piattaforma end-to-end per data center IA e HPC più potente

La A100 fa parte della soluzione per data center NVIDIA completa che integra strumenti hardware, di rete, software, librerie, modelli e applicazioni IA ottimizzati dall'NGC. Come piattaforma IA e HPC completa più potente per data center, consente ai ricercatori di fornire risultati in tempo reale e distribuire soluzioni nell'ambiente di produzione in modo scalabile.

 

La creazione di Ampere - Video

Deep Learning Training

Training IA fino a 3 volte superiore sui modelli più grandi

Training DLRM

Up to 3X Higher AI Training on Largest Models

I modelli IA diventano sempre più complessi nel tentativo di affrontare nuove sfide come l'IA conversazionale. Il training richiede un'enorme potenza di elaborazione e massima scalabilità.

I Tensor Cores di nella NVIDIA A100 con precisione Tensor Float (TF32) offrono prestazioni 20 volte superiori rispetto alla NVIDIA Volta, senza alcuna alterazione del codice, e un ulteriore incremento pari a 2 volte con precisione mista e FP16. Con NVIDIA® NVLink®, NVIDIA NVSwitch, PCI Gen4, NVIDIA® Mellanox® InfiniBand® e all'SDK NVIDIA Magnum IO, è possibile scalare a migliaia di GPU A100.

Un carico di lavoro di training come BERT può essere risolto in meno di un minuto con l'impiego di 2.048 GPU A100, un record di tempistiche mondiale.

Per i modelli più grandi con enormi tabelle di dati come i modelli di recommender basati su deep learning (DLRM), la A100 80GB raggiunge fino a 1,3 TB di memoria unificata per nodo e offre fino un aumento della produttività su A100 40GB fino a 3 volte superiore.

NVIDIA si conferma leader nel benchmark MLPerf, con vari record di prestazioni nel settore per il training con IA.

Inferenza su deep learning

La A100 introduce straordinarie funzionalità per ottimizzare i carichi di lavoro di inferenza. Accelera una gamma completa di precisioni, dalla FP32 alla INT4. La tecnologia Multi-Istance GPU (MIG) consente a più reti di operare simultaneamente su una singola A100 per un utilizzo ottimale delle risorse di elaborazione. Inoltre, il supporto per la densità strutturale offre prestazioni fino a 2 volte superiori oltre ad altri guadagni in termini di prestazioni in inferenza della A100.

Su modelli IA conversazionali all'avanguardia come BERT, la A100 accelera il throughput di inferenza fino a 249 volte rispetto alle CPU.

Nei modelli più complessi limitati dalle dimensioni batch, come RNN-T per il riconoscimento vocale automatico, la capacità di memoria aumentata della A100 80GB raddoppia le dimensioni di ogni MIG e offre un throughput fino a 1,25 volte superiore rispetto alla A100 40GB.

Le prestazioni leader di mercato di NVIDIA sono state dimostrate nel benchmark MLPerf Inference. La A100 offre prestazioni 20 volte superiori per espandere ulteriormente questa leadership.

Prestazioni di inferenza IA fino a 249 volte più elevate
Rispetto alle CPU

BERT-LARGE Inference

Up to 249X Higher AI Inference Performance  Over CPUs

Prestazioni di inferenza IA fino a 1,25 volte più elevate
Rispetto alla A100 40GB

Inferenza RNN-T: flusso singolo

Up to 1.25X Higher AI Inference Performance  Over A100 40GB

Calcolo ad alte prestazioni

Per arrivare a scoperte all'avanguardia, gli scienziati cercano di capire meglio il mondo che ci circonda.

NVIDIA A100 introduce i Tensor Core a doppia precisione per offrire il più grande passo avanti nelle prestazioni HPC dall'introduzione delle GPU. Con gli 80 GB della memoria GPU più veloce, i ricercatori possono abbattere i tempi di una simulazione di 10 ore a precisione doppia fino a meno di quattro ore sulla A100. Le applicazioni HPC possono inoltre sfruttare la precisione TF32 per ottenere un throughput fino a 11 volte superiore per operazioni di moltiplicazione a matrici intense a precisione singola.

Per le applicazioni HPC con i set di dati più voluminosi, la memoria aggiuntiva di A100 80GB offre fino al doppio in termini di aumento del throughput con Quantum Espresso, una simulazione di materiali. Questa enorme memoria e la larghezza di banda senza precedenti rendono la A100 80GB la piattaforma ideale per i carichi di lavoro di nuova generazione.

Prestazioni HPC 11 volte superiori in quattro anni

Principali applicazioni HPC

11X More HPC Performance  in Four Years

Prestazioni fino a 1,8 volte superiori per applicazioni HPC

Quantum Espresso​

Up to 1.8X Higher Performance  for HPC Applications

Analisi di dati ad alte prestazioni

Fino a 83 volte più veloce rispetto alla CPU, 2 volte più veloce rispetto a A100 40GB su benchmark di analisi dei big data

Up to 83X Faster than CPU, 2X Faster than A100 40GB on Big Data Analytics Benchmark

Gli esperti di dati devono poter analizzare, visualizzare e convertire enormi set di dati in informazioni. Tuttavia, le soluzioni scale-out spesso si trasformano in una palude poiché i set di dati sono disseminati su più server. 

I server accelerati con A100 offrono la necessaria potenza di calcolo, oltre a un'enorme memoria, con una banda superiore a 2 TB/sec, e scalabilità con NVIDIA® NVLink® e NVSwitch, per affrontare questi carichi di lavoro. Insieme a InfiniBand, NVIDIA Magnum IO e la suite RAPIDS di librerie open-source, tra cui RAPIDS Accelerator per Apache Spark per l'analisi dei dati accelerata da GPU, la piattaforma per data center NVIDIA è in grado di accelerare questi enormi carichi di lavoro a livelli senza precedenti in termini di prestazioni ed efficienza.

Su un benchmark di analisi dei big data, la A100 80GB ha fornito informazioni con un throughput 83 volte superiore rispetto alle CPU e prestazioni 2 volte superiori rispetto alla A100 40GB, il che la rende ideale per i carichi di lavoro emergenti con dimensioni di set di dati in esplosione. 

Utilizzo a livello di impresa

Produttività in inferenza 7 volte superiore con Multi-Instance GPU (MIG)

BERT Large Inference

7X Higher Inference Throughput with Multi-Instance GPU (MIG)

La A100 con MIG massimizza l'utilizzo dell'infrastruttura GPU accelerata. Con MIG, una GPU A100 può essere partizionata in ben sette istanze indipendenti, consentendo a più utenti di accedere all'accelerazione con GPU. Con A100 40GB, ogni istanza MIG può ottenere fino a 5 GB e con la una maggiore capacità di memoria della A100 80GB, tali dimensioni raddoppiano a 10 GB.

MIG funziona con Kubernetes, container e virtualizzazione server basata su hypervisor. MIG consente ai gestori dell'infrastruttura di offrire una GPU di dimensioni adeguate con qualità del servizio garantita (QoS) per ogni processo, estendendo la portata delle risorse di elaborazione accelerate a tutti gli utenti.

 Sfrutta al massimo i tuoi sistemi

Un sistema certificato da NVIDIA, composto da A100 con SmartnNIC e DPU NVIDIA Mellanox, convalidato per prestazioni, funzionalità, scalabilità e sicurezza, consente alle aziende di distribuire facilmente soluzioni complete per i carichi di lavoro IA dal catalogo NVIDIA NGC.

GPU per il data center

NVIDIA A100 per HGX

NVIDIA A100 per HGX

Prestazioni straordinarie per tutti i carichi di lavoro.

NVIDIA A100 per PCIe

NVIDIA A100 per PCIe

Massima versatilità per tutti i carichi di lavoro.

Specifiche tecniche

  A100 40GB PCIe A100 80GB PCIe A100 40GB SXM A100 80GB SXM
FP64 9,7 TFLOPS
FP64 Tensor Core 19,5 TFLOPS
FP32 19,5 TFLOPS
Tensor Float 32 (TF32) 156 TFLOPS | 312 TFLOPS*
BFLOAT16 Tensor Core 312 TFLOPS | 624 TFLOPS*
FP16 Tensor Core 312 TFLOPS | 624 TFLOPS*
INT8 Tensor Core 624 TOPS | 1248 TOPS*
Memoria della GPU HBM2 da 40 GB HBM2e da 80 GB HBM2 da 40 GB HBM2e da 80 GB
Banda di memoria della GPU 1.555GB/s 1.935GB/s 1.555GB/s 2.039GB/s
TDP massima (Thermal Design Power) 250W 300W 400W 400W
Multi-Instance GPU Fino a 7 MIG a 5 GB Fino a 7 MIG a 10 GB Fino a 7 MIG a 5 GB Fino a 7 MIG a 10 GB
Fattore di forma PCIe SXM
Interconnessione NVIDIA® NVLink® Bridge per 2 GPU: 600 GB/s **
PCIe Gen4: 64GB/s
NVLink: 600GB/s
PCIe Gen4: 64GB/s
Opzioni server Sistemi partner e NVIDIA-Certified Systems con 1-8 GPU NVIDIA HGX A100 partner e NVIDIA-Certified Systems con 4, 8 o 16 GPU
NVIDIA DGX A100 con 8 GPU
 

Vedi gli ultimi dati del benchmark MLPerf

Dentro l'architettura NVIDIA Ampere

Scopri le novità dell'architettura NVIDIA Ampere e la sua implementazione nella GPU NVIDIA A100.