This site requires Javascript in order to view all its content. Please enable Javascript in order to access all the functionality of this web site. Here are the instructions how to enable JavaScript in your web browser.

GPU NVIDIA A100 Tensor Core

Accelerazioni senza precedenti in ogni ordine di grandezza

Accelerare il lavoro più importante del nostro tempo

La GPU NVIDIA A100 Tensor Core offre accelerazione senza precedenti in ogni ordine di grandezza per alimentare i data center elastici con le più alte prestazioni nel mondo con IA, analisi dei dati e HPC. Basata sull'architettura NVIDIA Ampere, la A100 è il motore della piattaforma per data center NVIDIA. La A100 offre prestazioni fino a 20 volte superiori rispetto alla precedente generazione e può essere partizionata in sette istanze GPU per adattarsi dinamicamente all'evolversi delle esigenze. La A100 80GB debutta con la banda di memoria più veloce del mondo a oltre 2 terabyte al secondo (TB/s) per eseguire i modelli e i dataset più voluminosi.

Vedi la scheda tecnica di NVIDIA A100 (PDF 640 KB)

Vedi la sintesi del prodotto NVIDIA A100 80 GB PCIe (PDF 380 KB)

Vedi la sintesi del prodotto NVIDIA A100 40 GB PCIe (PDF 332 KB)

Software IA pronto per le aziende

La piattaforma NVIDIA EGX^™ include software ottimizzato che fornisce computing accelerato in tutta l'infrastruttura. NVIDIA AI Enterprise è una suite aziendale completa, cloud-native di software IA e analisi dei dati, ottimizzata, certificata e supportata da NVIDIA per l'esecuzione su VMware vSphere con NVIDIA-Certified Systems. NVIDIA AI Enterprise include tecnologie chiave fornite da NVIDIA per una rapida distribuzione, gestione e scalabilità dei carichi di lavoro IA nel moderno cloud ibrido.

Scopri di più

La piattaforma end-to-end per data center IA e HPC più potente

La A100 fa parte della soluzione per data center NVIDIA completa che integra strumenti hardware, di rete, software, librerie, modelli e applicazioni IA ottimizzati dall'NGC^™. Come piattaforma IA e HPC completa più potente per data center, consente ai ricercatori di fornire risultati in tempo reale e distribuire soluzioni nell'ambiente di produzione in modo scalabile.

La creazione di Ampere - Video

GUARDA IL VIDEO

training con deep learning

Training IA fino a 3 volte superiore sui modelli più grandi

Training DLRM

DLRM on HugeCTR framework, precision = FP16 | NVIDIA A100 80GB batch size = 48 | NVIDIA A100 40GB batch size = 32 | NVIDIA V100 32GB batch size = 32.

I modelli IA diventano sempre più complessi nel tentativo di affrontare nuove sfide come l'IA conversazionale. Il training richiede un'enorme potenza di elaborazione e massima scalabilità.

I Tensor Core di nella NVIDIA A100 con precisione Tensor Float (TF32) offrono prestazioni 20 volte superiori rispetto alla NVIDIA Volta, senza alcuna alterazione del codice, e un ulteriore incremento pari a 2 volte con precisione mista e FP16. Con NVIDIA^® NVLink^®, NVIDIA NVSwitch^™, PCI Gen4, NVIDIA^® Mellanox^® InfiniBand^® e all'SDK NVIDIA Magnum IO^™, è possibile scalare a migliaia di GPU A100.

Un carico di lavoro di training come BERT può essere risolto in meno di un minuto con l'impiego di 2.048 GPU A100, un record di tempistiche mondiale.

Per i modelli più grandi con enormi tabelle di dati come i modelli di recommender basati su deep learning (DLRM), la A100 80GB raggiunge fino a 1,3 TB di memoria unificata per nodo e offre fino un aumento della produttività su A100 40GB fino a 3 volte superiore.

NVIDIA si conferma leader nel benchmark MLPerf, con vari record di prestazioni nel settore per il training con IA.

Scopri di più su A100 per il training

Inferenza su deep learning

La A100 introduce straordinarie funzionalità per ottimizzare i carichi di lavoro di inferenza. Accelera una gamma completa di precisioni, dalla FP32 alla INT4. La tecnologia Multi-Istance GPU (MIG) consente a più reti di operare simultaneamente su una singola A100 per un utilizzo ottimale delle risorse di elaborazione. Inoltre, il supporto per la densità strutturale offre prestazioni fino a 2 volte superiori oltre ad altri guadagni in termini di prestazioni in inferenza della A100.

Su modelli IA conversazionali all'avanguardia come BERT, la A100 accelera il throughput di inferenza fino a 249 volte rispetto alle CPU.

Nei modelli più complessi limitati dalle dimensioni batch, come RNN-T per il riconoscimento vocale automatico, la capacità di memoria aumentata della A100 80GB raddoppia le dimensioni di ogni MIG e offre un throughput fino a 1,25 volte superiore rispetto alla A100 40GB.

Le prestazioni leader di mercato di NVIDIA sono state dimostrate nel benchmark MLPerf Inference. La A100 offre prestazioni 20 volte superiori per espandere ulteriormente questa leadership.

Scopri di più su A100 per l'inferenza

Prestazioni di inferenza IA fino a 249 volte più elevate
rispetto alle CPU

BERT-LARGE Inference

BERT-Large Inference | CPU only: Xeon Gold 6240 @ 2.60 GHz, precision = FP32, batch size = 128 | V100: NVIDIA TensorRT (TRT) 7.2, precision =™ INT8, batch size = 256 | A100 40GB and 80GB, batch size = 256, precision = INT8 con densità.

Prestazioni di inferenza IA fino a 1,25 volte più elevate
rispetto alla A100 40 GB

Inferenza RNN-T: flusso singolo

MLPerf 0.7 RNN-T measured with (1/7) MIG slices. Framework: TensorRT 7.2, dataset = LibriSpeech, precision = FP16.

Calcolo ad alte prestazioni

Per arrivare a scoperte all'avanguardia, gli scienziati cercano di capire meglio il mondo che ci circonda.

NVIDIA A100 introduce i Tensor Core a doppia precisione per offrire il più grande passo avanti nelle prestazioni HPC dall'introduzione delle GPU. Con gli 80 GB della memoria GPU più veloce, i ricercatori possono abbattere i tempi di una simulazione di 10 ore a precisione doppia fino a meno di quattro ore sulla A100. Le applicazioni HPC possono inoltre sfruttare la precisione TF32 per ottenere un throughput fino a 11 volte superiore per operazioni di moltiplicazione a matrici intense a precisione singola.

Per le applicazioni HPC con i set di dati più voluminosi, la memoria aggiuntiva di A100 80GB offre fino al doppio in termini di aumento del throughput con Quantum Espresso, una simulazione di materiali. Questa enorme memoria e la larghezza di banda senza precedenti rendono la A100 80GB la piattaforma ideale per i carichi di lavoro di nuova generazione.

Scopri di più su A100 per HPC

Prestazioni HPC 11 volte superiori in quattro anni

Principali applicazioni HPC

Media geometrica di accelerazioni dell'applicazione rispetto a P100: applicazione benchmark: Amber [PME-Cellulose_NVE], Chroma [szscl21_24_128], GROMACS [ADH Dodec], MILC [Apex Medium], NAMD [stmv_nve_cuda], PyTorch (BERT Large Fine Tuner], Quantum Espresso [AUSURF112-jR]; Random Forest FP32 [make_blobs (160000 x 64: 10)], TensorFlow [ResNet-50], VASP 6 [Si Huge], | Nodo GPU con CPU dual-socket con 4 GPU NVIDIA P100, V100 o A100.

Prestazioni fino a 1,8 volte superiori per applicazioni HPC

Quantum Espresso

Quantum Espresso measured using CNT10POR8 dataset, precision = FP64.

Analisi di dati ad alte prestazioni

Fino a 83 volte più veloce rispetto alla CPU, 2 volte più veloce rispetto a A100 40GB su benchmark di analisi dei big data

Benchmark di analisi dei big data | 30 query retail analitiche, ETL, ML, NLP su dataset da 10 TB | CPU: Intel Xeon Gold 6252 2.10 GHz, Hadoop | V100 32GB, RAPIDS/Dask | A100 40GB e A100 80GB, RAPIDS/Dask/BlazingSQL

Gli esperti di dati devono poter analizzare, visualizzare e convertire enormi set di dati in informazioni. Tuttavia, le soluzioni scale-out spesso si trasformano in una palude poiché i set di dati sono disseminati su più server.

I server accelerati con A100 offrono la necessaria potenza di calcolo, oltre a un'enorme memoria, con una banda superiore a 2 TB/sec, e scalabilità con NVIDIA^® NVLink^® e NVSwitch^™, per affrontare questi carichi di lavoro. Insieme a InfiniBand, NVIDIA Magnum IO^™ e la suite RAPIDS^™ di librerie open-source, tra cui RAPIDS Accelerator per Apache Spark per l'analisi dei dati accelerata da GPU, la piattaforma per data center NVIDIA è in grado di accelerare questi enormi carichi di lavoro a livelli senza precedenti in termini di prestazioni ed efficienza.

Su un benchmark di analisi dei big data, la A100 80GB ha fornito informazioni con un throughput 83 volte superiore rispetto alle CPU e prestazioni 2 volte superiori rispetto alla A100 40GB, il che la rende ideale per i carichi di lavoro emergenti con dimensioni di set di dati in esplosione.

Scopri di più sull'analisi dei dati

Utilizzo di livello enterprise

Produttività in inferenza 7 volte superiore con Multi-Instance GPU (MIG)

BERT Large Inference

BERT Large Inference | NVIDIA TensorRT^™ (TRT) 7.1 | NVIDIA T4 Tensor Core GPU: TRT 7.1, precision = INT8, batch size = 256 | V100: TRT 7.1, precision = FP16, batch size = 256 | A100 with 1 or 7 MIG instances of 1g.5gb: batch size = 94, precision = INT8 con densità

La A100 con MIG massimizza l'utilizzo dell'infrastruttura GPU accelerata. Con MIG, una GPU A100 può essere partizionata in ben sette istanze indipendenti, consentendo a più utenti di accedere all'accelerazione con GPU. Con A100 40GB, ogni istanza MIG può ottenere fino a 5 GB e con la una maggiore capacità di memoria della A100 80GB, tali dimensioni raddoppiano a 10 GB.

MIG funziona con Kubernetes, container e virtualizzazione server basata su hypervisor. MIG consente ai gestori dell'infrastruttura di offrire una GPU di dimensioni adeguate con qualità del servizio garantita (QoS) per ogni processo, estendendo la portata delle risorse di elaborazione accelerate a tutti gli utenti.

Scopri di più su MIG

Sfrutta al massimo i tuoi sistemi

Un sistema certificato da NVIDIA, composto da A100 con SmartnNIC e DPU NVIDIA Mellanox, convalidato per prestazioni, funzionalità, scalabilità e sicurezza, consente alle aziende di distribuire facilmente soluzioni complete per i carichi di lavoro IA dal catalogo NVIDIA NGC.

Scopri di più

GPU per il data center

NVIDIA A100 per HGX

Prestazioni straordinarie per tutti i carichi di lavoro.

NVIDIA A100 per PCIe

Massima versatilità per tutti i carichi di lavoro.

Specifiche

	A100 80GB PCIe	A100 80GB SXM
FP64	9,7 TFLOPS
FP64 Tensor Core	19,5 TFLOPS
FP32	19,5 TFLOPS
Tensor Float 32 (TF32)	156 TFLOPS \| 312 TFLOPS*
BFLOAT16 Tensor Core	312 TFLOPS \| 624 TFLOPS*
FP16 Tensor Core	312 TFLOPS \| 624 TFLOPS*
INT8 Tensor Core	624 TOPS \| 1248 TOPS*
Memoria della GPU	HBM2e da 80 GB	HBM2e da 80 GB
Banda di memoria GPU	1.935 GB/s	2.039 GB/s
TDP massima (Thermal Design Power)	300 W	400 W ***
Multi-Instance GPU	Fino a 7 MIG a 10 GB	Fino a 7 MIG a 10 GB
Fattore di forma	PCIe Raffreddamento ad aria con doppio slot o raffreddamento a liquido con slot singolo	SXM
Interconnessione	NVIDIA^® NVLink^® Bridge per 2 GPU: 600 GB/s ** PCIe Gen4 64 GB/s	NVLink 600 GB/s PCIe Gen4 64 GB/s
Opzioni server	Sistemi partner e NVIDIA-Certified Systems™ con 1-8 GPU	NVIDIA HGX™ A100-Partner e NVIDIA-Certified Systems con 4,8 o 16 GPU NVIDIA DGX™ A100 con 8 GPU

* Con densità
** GPU SXM4 con schede server HGX A100; GPU PCIe con NVLink Bridge per fino a due GPU
*** TPD 400 W per la configurazione standard. L’SKU della CTS (soluzione termica personalizzata) di HGX A100-80 GB supporta TDP fino a 500 W

Vedi gli ultimi dati del benchmark MLPerf

Vedi i risultati

Dentro l'architettura NVIDIA Ampere

Scopri le novità dell'architettura NVIDIA Ampere e la sua implementazione nella GPU NVIDIA A100.

Leggi il white paper