NVIDIA Tensor Core

Accelerazione senza precedenti per l'IA per agenti.

I Tensor Core consentono il calcolo con precisione mista, che si adatta in modo dinamico per accelerare la produttività, preservando l'accuratezza e garantendo sicurezza avanzata. L'ultima generazione di Tensor Core è più veloce che mai su una vasta gamma di attività IA e di calcolo ad alte prestazioni (HPC). Dall'addestramento di modelli IA da trilioni di parametri al raggiungimento di prestazioni di inferenza rivoluzionarie, i core NVIDIA Tensor accelerano tutti i carichi di lavoro per le fabbriche IA moderne.

Introduzione
NVIDIA Rubin
NVIDIA Blackwell
Specifiche

Introduzione
NVIDIA Rubin
NVIDIA Blackwell
Specifiche

Training con IA rivoluzionario

Addestrare modelli di IA generativa da multitrilioni di parametri con una precisione a 16 bit può richiedere mesi. I core NVIDIA Tensor sono dotati di NVFP4, un formato rivoluzionario che offre la velocità e l'efficienza del formato a 4 bit con la precisione del 16 bit. Supportati da Transformer Engine, NVFP4 utilizzano la scalabilità a micro-blocchi per aumentare notevolmente il throughput e ridurre l'impronta di memoria. Con il supporto del framework nativo tramite le librerie CUDA-X™, questa innovazione riduce i tempi di addestramento alla convergenza per la nuova generazione di modelli di frontiera.

Inferenza rivoluzionaria

Ottenere una bassa latenza a un throughput elevato, massimizzando l'utilizzo, è fondamentale per una distribuzione affidabile dell'inferenza. La piattaforma NVIDIA Rubin è dotata di un Transformer Engine migliorato che aumenta le prestazioni NVFP4 con Tensor Core di quinta generazione. Allo stesso tempo, preserva l'accuratezza, consentendo fino a 50 petaFLOPS (PFLOPS) di inferenza NVFP4. Completamente compatibile con NVIDIA Blackwell, il Transformer Engine garantisce aggiornamenti in tutta facilità e consente ai codici precedentemente ottimizzati di passare facilmente alla NVIDIA Rubin.

I core Tensor hanno permesso a NVIDIA di ottenere benchmark MLPerf di settore per l'inferenza.

HPC avanzato

L'HPC è un pilastro fondamentale della scienza moderna. Per sfruttare le scoperte di nuova generazione, gli scienziati usano simulazioni per comprendere al meglio il comportamento delle molecole e trovare nuovi farmaci, analizzano dati fisici per individuare potenziali nuove fondi di energia e dati atmosferici per prevedere e prepararsi a eventi metereologici estremi. Gli NVIDIA Tensor Core offrono una gamma completa di precisioni, tra cui FP64 e FP32, per accelerare il calcolo scientifico con la massima precisione necessaria.

L'SDK HPC fornisce compilatori, librerie e strumenti essenziali per lo sviluppo di applicazioni HPC per la piattaforma NVIDIA.

Core NVIDIA Rubin Tensor

Quinta generazione migliorata

La piattaforma NVIDIA Rubin introduce core Tensor migliorati di quinta generazione. Progettati per accelerare le fabbriche IA moderne, ottimizzano il supporto per l'aritmetica NVFP4 a precisione stretta a 4 bit e FP8. Integrando strettamente questi Tensor Core con unità funzionali speciali espanse all'interno dei multiprocessori di streaming NVIDIA Rubin, la piattaforma accelera significativamente i meccanismi di attenzione e i percorsi di calcolo sparsi, aumentando sia la densità aritmetica che l'efficienza energetica senza compromettere l'accuratezza dei modelli.

Transformer Engine da 50 PFLOPS
Emulazione

Transformer Engine da 50 PFLOPS

Alimentando la nuova generazione di IA agentica, la GPU NVIDIA Rubin è dotata di un Transformer Engine da 50 petaFLOPS che sfrutta Tensor Core di quinta generazione e la precisione NVFP4 per massimizzare l'efficienza dell'inferenza. Questo salto architettonico scala facilmente a 3.600 PFLOPS per l'inferenza NVFP4 nel sistema NVIDIA Vera Rubin NVL72, offrendo il throughput enorme essenziale per i modelli di ragionamento in tempo reale.

Emulazione

Le architetture NVIDIA Blackwell e Rubin possono emulare operazioni di matrice FP32 e FP64 decomponendo i valori di input e sfruttando i Tensor Core ad alto throughput e a bassa precisione. Questo approccio può aumentare significativamente le prestazioni e l'efficienza energetica, eguagliando o addirittura superando la precisione nativa IEEE754. Utilizzando algoritmi complessi basati su software e operazioni a punto fisso, l'emulazione fornisce un'alternativa controllata e altamente efficiente ai metodi di esecuzione hardware tradizionali a precisione superiore.

NVIDIA Blackwell Tensor Core

Quinta generazione

L'architettura NVIDIA Blackwell offre un'accelerazione 30 volte superiore rispetto alla precedente generazione di NVIDIA Hopper™ per modelli massicci come GPT-MoE-1.8T. Questo aumento delle prestazioni è reso possibile con la quinta generazione di Tensor Core. I Tensor Core NVIDIA Blackwell aggiungono nuove precisioni, inclusi i formati di microscaling definiti dalla community, garantendo maggiore precisione e facilità di sostituzione per precisioni più elevate.

Scopri di più sull'architettura NVIDIA Blackwell

Nuove precisioni
Transformer Engine

Nuovi formati di precisione

Man mano che i modelli di IA generativa aumentano in dimensioni e complessità, è fondamentale migliorare le prestazioni di training e inferenza. Per soddisfare queste esigenze di calcolo, i Tensor Core NVIDIA Blackwell supportano tutti i nuovi formati di quantizzazione e di precisione inclusi i formati di microscaling definiti dalla community.

Transformer Engine di seconda generazione

Il Transformer Engine di seconda generazione utilizza la tecnologia NVIDIA Blackwell Tensor Core personalizzata in combinazione con le innovazioni NVIDIA® TensorRT™-LLM e NeMo™ Framework per accelerare l'inferenza e l'addestramento per modelli linguistici di grandi dimensioni (LLM) e modelli mixture-of-experts (MoE). Il Transformer Engine è alimentato dalla precisione FP4 dei Tensor Core, il che raddoppia le prestazioni e l'efficienza mantenendo un'elevata precisione per i modelli MoE attuali e di nuova generazione.

Il Transformer Engine punta a democratizzare gli LLM di oggi con prestazioni in tempo reale. Le aziende possono ottimizzare i processi aziendali distribuendo modelli di IA generativa all'avanguardia a costi convenienti.

La piattaforma completa per data center IA e HPC più potente

I Tensor Core sono elementi costitutivi essenziali della soluzione completa per data center NVIDIA che incorpora hardware, rete, software, librerie e modelli e applicazioni IA ottimizzati dal catalogo NVIDIA NGC™. Come piattaforma IA e HPC completa più potente, consente ai ricercatori di fornire risultati in tempo reale e distribuire soluzioni nell'ambiente di produzione in modo scalabile.

	NVIDIA Rubin	NVIDIA Blackwell
Precisioni supportate con Tensor Core	NVFP4, FP64, TF32, BF16, FP16, FP8/FP6, INT8,	NVFP4, FP64, TF32, BF16, FP16, FP8/FP6, INT8,
Precisioni supportate con CUDA^® Core	FP64, FP32, INT32, FP16, BF16	FP64, FP32, FP16, BF16

*Specifiche preliminari, soggette a modifica

Scopri di più sulla piattaforma NVIDIA Vera Rubin.

Scopri di più