Dare forma alla nuova generazione dell'IA.
Panoramica
La piattaforma NVIDIA Vera Rubin è progettata per l'era dell'IA e del ragionamento agentici, ingegnerizzata per padroneggiare la risoluzione di problemi multifase e workflow massicci a lungo contesto su vasta scala. Eliminando i colli di bottiglia critici nella comunicazione e nel movimento della memoria, la piattaforma potenzia l'inferenza per offrire più token per watt e un costo per token inferiore rispetto alla generazione dell'architettura NVIDIA Blackwell.
La GPU Rubin è dotata di un nuovo Transformer Engine (TE) con compressione adattiva accelerata da hardware per aumentare le prestazioni NVFP4, preservando l'accuratezza. Ciò consente fino a 50 petaFLOPS di inferenza NVFP4. Completamente compatibile con NVIDIA Blackwell, il Transformer Engine garantisce aggiornamenti in tutta facilità e consente ai codici precedentemente ottimizzati di passare senza problemi alla piattaforma Vera Rubin.
La terza generazione di NVIDIA Confidential Computing espande la sicurezza a livello di rack con NVIDIA Vera Rubin NVL72. Questa piattaforma crea un ambiente di esecuzione unificato e affidabile su tutte le 36 CPU NVIDIA Vera e le 72 GPU NVIDIA Rubin, con il fabric NVIDIA NVLink™ a fare da collegamento. La piattaforma mantiene la sicurezza dei dati nei domini di CPU, GPU e NVLink. Grazie a servizi di attestazione per la prova crittografica di conformità, è in grado di combinare una scalabilità massiccia con una protezione senza compromessi al fine di proteggere i modelli proprietari, i dati dell'addestramento e i carichi di lavoro di inferenza più grandi al mondo.
NVLink di sesta generazione rapprensenta un grande passo avanti per il fabric di interconnessione GPU ad alta velocità di NVIDIA, che unifica 72 GPU NVIDIA Rubin in un unico dominio di prestazioni. Raddoppiando le prestazioni di NVIDIA Blackwell, Rubin GPU offre 3,6 terabyte al secondo (TB/s) di larghezza di banda per le GPU e 260 TB/s di connettività a bassa latenza per facilitare una comunicazione più rapida. In combinazione con NVIDIA® Scalable Hierarchical Aggregation and Reduction Protocol (SHARP)™, che riduce la congestione di rete fino al 50% per le operazioni collettive, questa interconnessione di nuova generazione accelera l'addestramento e l'inferenza per i modelli più grandi del mondo, su larga scala e senza compromessi.
La piattaforma NVIDIA Vera Rubin offre resilienza su larga scala con funzionalità di affidabilità avanzate. Le GPU NVIDIA Rubin hanno un motore RAS dedicato di seconda generazione per la manutenzione proattiva e i controlli dello stato in tempo reale senza tempi di inattività, Le CPU NVIDIA Vera aggiungono una maggiore manutenibilità grazie ai moduli di memoria small-outline compression-attached memory modules (SOCAMM) LPDDR5X e ai test in-system per i core della CPU. Il rack presenta design di vassoi modulari e senza cavi per un assemblaggio e una manutenzione 18 volte più veloci rispetto a NVIDIA Blackwell, oltre a una resilienza intelligente e a un routing NVLink software-defined a garantire il funzionamento continuo e ridurre i costi di manutenzione.
La CPU NVIDIA Vera è progettata per il movimento di dati e il ragionamento agentico nei sistemi accelerati, con supporto completo per il calcolo riservato. Si abbina perfettamente alle GPU NVIDIA ed è anche in grado di operare in modo indipendente per carichi di lavoro di analisi, cloud, orchestrazione, storage e calcolo ad alte prestazioni (HPC). Vera combina 88 core NVIDIA, fino a 1,2 TB/s di larghezza di banda di memoria LPDDR5X e NVIDIA Scalable Coherency Fabric, per fornire prestazioni prevedibili e a risparmio energetico per carichi di lavoro ad alta intensità di dati e memoria con piena compatibilità con Arm®. La connettività NVIDIA NVLink-C2C integrata consente un accesso coerente alla memoria CPU-GPU ad alta larghezza di banda per massimizzare l'utilizzo e l'efficienza del sistema.
Leggi questo approfondimento tecnico per scoprire come NVIDIA Vera Rubin considera il data center come unità di calcolo, e non il chip, stabilendo una nuova base per produrre intelligenza su larga scala in modo efficiente, sicuro e prevedibile.