I Tensor Core consentono il calcolo con precisione mista, che si adatta in modo dinamico per accelerare la produttività, preservando l'accuratezza e garantendo sicurezza avanzata. L'ultima generazione di Tensor Core è più veloce che mai su una vasta gamma di attività IA e di calcolo ad alte prestazioni (HPC). Dall'addestramento di modelli IA da trilioni di parametri al raggiungimento di prestazioni di inferenza rivoluzionarie, i core NVIDIA Tensor accelerano tutti i carichi di lavoro per le fabbriche IA moderne.
La piattaforma NVIDIA Rubin introduce core Tensor migliorati di quinta generazione. Progettati per accelerare le fabbriche IA moderne, ottimizzano il supporto per l'aritmetica NVFP4 a precisione stretta a 4 bit e FP8. Integrando strettamente questi Tensor Core con unità funzionali speciali espanse all'interno dei multiprocessori di streaming NVIDIA Rubin, la piattaforma accelera significativamente i meccanismi di attenzione e i percorsi di calcolo sparsi, aumentando sia la densità aritmetica che l'efficienza energetica senza compromettere l'accuratezza dei modelli.
Alimentando la nuova generazione di IA agentica, la GPU NVIDIA Rubin è dotata di un Transformer Engine da 50 petaFLOPS che sfrutta Tensor Core di quinta generazione e la precisione NVFP4 per massimizzare l'efficienza dell'inferenza. Questo salto architettonico scala facilmente a 3.600 PFLOPS per l'inferenza NVFP4 nel sistema NVIDIA Vera Rubin NVL72, offrendo il throughput enorme essenziale per i modelli di ragionamento in tempo reale.
Le architetture NVIDIA Blackwell e Rubin possono emulare operazioni di matrice FP32 e FP64 decomponendo i valori di input e sfruttando i Tensor Core ad alto throughput e a bassa precisione. Questo approccio può aumentare significativamente le prestazioni e l'efficienza energetica, eguagliando o addirittura superando la precisione nativa IEEE754. Utilizzando algoritmi complessi basati su software e operazioni a punto fisso, l'emulazione fornisce un'alternativa controllata e altamente efficiente ai metodi di esecuzione hardware tradizionali a precisione superiore.
L'architettura NVIDIA Blackwell offre un'accelerazione 30 volte superiore rispetto alla precedente generazione di NVIDIA Hopper™ per modelli massicci come GPT-MoE-1.8T. Questo aumento delle prestazioni è reso possibile con la quinta generazione di Tensor Core. I Tensor Core NVIDIA Blackwell aggiungono nuove precisioni, inclusi i formati di microscaling definiti dalla community, garantendo maggiore precisione e facilità di sostituzione per precisioni più elevate.
Man mano che i modelli di IA generativa aumentano in dimensioni e complessità, è fondamentale migliorare le prestazioni di training e inferenza. Per soddisfare queste esigenze di calcolo, i Tensor Core NVIDIA Blackwell supportano tutti i nuovi formati di quantizzazione e di precisione inclusi i formati di microscaling definiti dalla community.
Il Transformer Engine di seconda generazione utilizza la tecnologia NVIDIA Blackwell Tensor Core personalizzata in combinazione con le innovazioni NVIDIA® TensorRT™-LLM e NeMo™ Framework per accelerare l'inferenza e l'addestramento per modelli linguistici di grandi dimensioni (LLM) e modelli mixture-of-experts (MoE). Il Transformer Engine è alimentato dalla precisione FP4 dei Tensor Core, il che raddoppia le prestazioni e l'efficienza mantenendo un'elevata precisione per i modelli MoE attuali e di nuova generazione.
Il Transformer Engine punta a democratizzare gli LLM di oggi con prestazioni in tempo reale. Le aziende possono ottimizzare i processi aziendali distribuendo modelli di IA generativa all'avanguardia a costi convenienti.
I Tensor Core sono elementi costitutivi essenziali della soluzione completa per data center NVIDIA che incorpora hardware, rete, software, librerie e modelli e applicazioni IA ottimizzati dal catalogo NVIDIA NGC™. Come piattaforma IA e HPC completa più potente, consente ai ricercatori di fornire risultati in tempo reale e distribuire soluzioni nell'ambiente di produzione in modo scalabile.
| NVIDIA Rubin | NVIDIA Blackwell | |
|---|---|---|
| Precisioni supportate con Tensor Core | NVFP4, FP64, TF32, BF16, FP16, FP8/FP6, INT8, | NVFP4, FP64, TF32, BF16, FP16, FP8/FP6, INT8, |
| Precisioni supportate con CUDA® Core | FP64, FP32, INT32, FP16, BF16 | FP64, FP32, FP16, BF16 |
*Specifiche preliminari, soggette a modifica
Scopri di più sulla piattaforma NVIDIA Vera Rubin.