Dare forma all'era del ragionamento agentico.
Panoramica
NVIDIA Rubin è stato progettato per l'era dei modelli di IA agentica e di ragionamento, per rispondere alle esigenze della risoluzione di problemi in più fasi e dei flussi di lavoro dal lungo contesto. Eliminando i colli di bottiglia nella comunicazione, nel coordinamento e nel movimento della memoria, NVIDIA Rubin offre una scalabilità e un'efficienza senza pari, consentendo agli agenti autonomi di ragionare, agire e innovare su larga scala.
Il Transformer Engine di terza generazione consente dei progressi notevoli nelle prestazioni IA, offrendo inferenze in fase di contesto 2 volte più veloci per architetture di modelli all'avanguardia come Mixture of Experts (MoE). Ciò è possibile grazie all'Adaptive Acceleration Unit (AAU), che orchestra in modo intelligente l'esecuzione selezionando dinamicamente i percorsi di calcolo ottimali e attivando istruzioni specializzate. Queste ottimizzazioni migliorano le operazioni di attenzione, consentendo un rendimento superiore, un costo per token inferiore e un'efficienza scalabile per i carichi di lavoro di IA generativa di nuova generazione.
La terza generazione di NVIDIA Confidential Computing include la CPU NVIDIA Vera, che espande la sicurezza su larga scala con NVIDIA Vera Rubin NVL72. Questa piattaforma crea un ambiente di esecuzione unificato e affidabile su 36 CPU NVIDIA Vera e 72 GPU NVIDIA Rubin, con il fabric NVIDIA NVLink™ da 260 terabyte al secondo (TB/s) a fare da collegamento. Protegge l'intero ciclo di vita dell'IA, dal pre-addestramento e post-addestramento fino all'inferenza, isolando i modelli, i dati e i prompt proprietari dai fornitori cloud e dagli altri tenant. Grazie ai servizi di attestazione per la prova crittografica di conformità e al throughput quasi non crittografato di NVLink-C2C, NVL72 è capace di combinare una scalabilità massiccia con una protezione senza compromessi, trasformando la privacy in un vantaggio in termini di prestazioni.
NVLink di sesta generazione rapprensenta un grande passo avanti per il fabric di interconnessione GPU ad alta velocità di NVIDIA, che unifica 72 GPU NVIDIA Rubin in un unico dominio di prestazioni. Offre 3,6 TB/s di larghezza di banda per la GPU e 260 TB/s di connettività (il doppio di NVIDIA Blackwell) con bassa latenza per facilitare una comunicazione più rapida. In combinazione con il protocollo NVIDIA® Scalable Hierarchical Aggregation and Reduction Protocol (SHARP)™ per una larghezza di banda straordinariamente efficiente, questa interconnessione di nuova generazione accelera l'addestramento e l'inferenza per i modelli più grandi al mondo, su larga scala e senza compromessi.
NVIDIA Vera Rubin NVL72 offre resilienza su larga scala con funzionalità di affidabilità avanzate. Le GPU NVIDIA Rubin sono dotate di un motore RAS dedicato di seconda generazione per la manutenzione proattiva e i controlli dello stato in tempo reale senza tempi di inattività, mentre le CPU NVIDIA Vera offrono una maggiore manutenibilità con SOCAMM LPDDR5X e i test nel sistema per i core CPU. Il design modulare e senza cavi del rack, combinato con il failover intelligente e il routing NVLink software-defined, garantisce il funzionamento continuo e riduce i costi di manutenzione.
La CPU NVIDIA Vera è progettata per il movimento di dati e il ragionamento agentico nei sistemi accelerati. Si abbina perfettamente alle GPU NVIDIA ed è anche in grado di operare in modo indipendente per carichi di lavoro di analisi, cloud, orchestrazione, storage e calcolo ad alte prestazioni (HPC). Con 88 core ad alte prestazioni progettati da NVIDIA, con un massimo di 1,2 TB/s di larghezza di banda di memoria LPDDR5X e NVIDIA Scalable Coherency Fabric, NVIDIA Vera offre prestazioni prevedibili e a risparmio energetico per carichi di lavoro ad alta intensità di dati e di memoria. La connettività NVLink-C2C integrata consente un accesso costante alla memoria CPU-GPU e ad alta larghezza di banda, massimizzando l'utilizzo del sistema, l'efficienza e il ritorno sull'investimento.
Grazie a una coprogettazione estrema, NVIDIA Vera Rubin prende in considerazione il data center e non il chip come unità di calcolo, stabilendo una nuova base per produrre intelligenza su larga scala in modo efficiente, sicuro e prevedibile.