ARCHITETTURA NVIDIA AMPERE

Il cuore dei data center dalle prestazioni più elevate e più scalabili del mondo

IL CUORE DELL'IA E DELL'HPC NEL DATA CENTER MODERNO

Scienziati, ricercatori e ingegneri lavorano per risolvere i principali problemi del mondo in ambito scientifico, industriale e dei big data con l'IA e il calcolo ad alte prestazion (HPC). Nel frattempo le imprese cercano di sfruttare la potenza dell'IA per estrarre nuove informazioni da enormi set di dati, sia in locale che nel cloud. L'architettura NVIDIA Ampere, progettata per l'era del computing "elastico", offre passi da gigante e una velocità senza pari in ogni ordine di grandezza.

INNOVAZIONI RIVOLUZIONARIE

Realizzato con 54 miliardi di transistor, l'architettura NVIDIA Ampere è il più grande chip a 7 nanometri (nm) mai costruito e include cinque principali innovazioni all'avanguardia.

Tensor Core di terza generazione

Inizialmente introdotta nell'architettura NVIDIA Volta™, la tecnologia NVIDIA Tensor Core ha generato accelerazioni significative nell'IA, riducendo i tempi di training da settimane a ore e garantendo massima accelerazione per l'inferenza. L'architettura NVIDIA Ampere si basa su queste innovazioni e aggiunge nuove precisioni, Tensor Float (TF32) e virgola mobile a 64 (FP64), per accelerare e semplificare l'adozione dell'IA ed espandere la potenza dei Tensor Core all'HPC.

La precisione TF32 funziona esattamente come la FP32 con velocità fino a 20 volte superiori per l'IA senza alcuna variazione del codice. Con NVIDIA Automatic Mixed Precision, i ricercatori possono raddoppiare le prestazioni grazie alla precisione mista automatica e alla precisione FP16 aggiungendo solo poche righe di codice. Inoltre, grazie al supporto per bfloat16, INT8 e INT4, i Tensor Core nelle GPU Tensor Core basate su architettura NVIDIA Ampere creano un acceleratore incredibilmente versatile per il training e l'inferenza su IA. Portando la potenza dei Tensor Core nell'HPC, le GPU A100 e A30 consentono anche l'esecuzione di operazioni in matrice complete, con conformi allo standard IEEE e con precisione FP64. 

Tensor Core di terza generazione
Multi-Instance GPU (MIG)

Multi-Instance GPU (MIG)

Ogni applicazioni IA e HPC può beneficiare dell'accelerazione, ma non tutte hanno bisogno delle prestazioni di una GPU completa. Multi-Instance GPU (MIG) è una funzionalità supportata su GPU A100 e A30 che consente ai carichi di lavoro di condividere la GPU. Con MIG, ciascuna GPU può essere ripartita su più istanze GPU, completamente isolata e sicura a livello di hardware con la memoria ad alta banda, la cache e i core di elaborazione. Ora, gli sviluppatori possono accedere a strumenti di accelerazione all'avanguardia per tutte le applicazioni, grandi e piccole, e ottenere qualità del servizio garantito. Mentre gli amministratori IT possono offrire un'accelerazione GPU correttamente dimensionata con utilizzo ottimale ed estendere l'accesso a ogni utente e applicazione in ambienti fisici e virtualizzati.

Densità strutturale

Densità strutturale

Le reti IA moderne sono grandi e continuano ad espandersi, con milioni e in alcuni casi miliardi di parametri. Non tutti questi parametri sono necessarie per previsioni e inferenze accurate e alcuni possono essere convertiti in zeri per rendere i modelli "sparsi" senza comprometterne l'accuratezza. I Tensor Core offrono prestazioni fino a 2 volte superiori per i modelli sparsi. Sebbene l'inferenza IA benefici immediatamente della riduzione della densità, anche le prestazioni di training del modello possono trarne vantaggio. 

RT Core di seconda generazione

Gli RT Core di seconda generazione dell'architettura NVIDIA Ampere nelle GPU NVIDIA A40 e A10 garantiscono accelerazioni massicce per carichi di lavoro come il rendering fotorealistico di contenuti cinematografici, valutazioni di progetti architettonici e prototipazione virtuale di design di prodotti. Gli RT Core accelerano anche il rendering del motion blur con ray-tracing per ottenere risultati più rapidi con una maggiore accuratezza visiva e possono eseguire simultaneamente il ray-tracing con capacità di shading o denoising.

RT Core di seconda generazione
Memoria più veloce e intelligente

Memoria più veloce e intelligente

A100 porta un'enorme potenza di calcolo nei data center. Per massimizzare l'uso dei motori di elaborazione, offre una memoria di banda eccezionale di 2 terabyte al secondo (TB/sec), più del doppio rispetto alla generazione precedente. Inoltre, il sistema A100 include più memoria on-chip, con una cache di livello 2 da 40 megabyte (MB), 7 volte più estesa rispetto alla generazione precedente, per massimizzare le prestazioni di calcolo.

Accelerazione convergente sull'edge

La combinazione dell'architettura NVIDIA Ampere e l'unità di elaborazione dati (DPU) NVIDIA BlueField®-2 negli acceleratori convergenti NVIDIA garantisce un'accelerazione senza pari in termini di calcolo e di rete per elaborare enormi volumi di dati generati nel data center e sull'edge. BlueField-2 combina la potenza di NVIDIA ConnectX®-6 Dx con ARM Core programmabili e riduzione del carico hardware per carichi di lavoro di storage, networking, sicurezza e gestione software-defined. Con gli acceleratori convergenti NVIDIA, i clienti possono eseguire carichi di lavoro edge e data center ad alta intensità di dati con la massima sicurezza e le massime prestazioni

Accelerazione convergente sull'edge
Design ottimizzato per la densità

Design ottimizzato per la densità

 Il design quad-GPU della scheda NVIDIA A16 è ottimizzato per la densità utente e, abbinata al software NVIDIA Virtual PC (vPC), consente di accedere a PC virtuali a elevati contenuti grafici da qualsiasi luogo. Aumenta il frame rate e riduci la latenza per l'utente rispetto alla VDI basata solo su CPU con NVIDIA A16, per applicazioni più reattive e un'esperienza utente indistinguibile da quella di un PC nativo.

Dentro l'architettura NVIDIA Ampere

Esplora le tecnologie all'avanguardia dell'architettura e la gamma completa di GPU.