Ecosistema di storage IA per data center
Riprogettare lo storage per l'inferenza per la nuova frontiera dell'IA.
Panoramica
Lo storage a memoria contestuale NVIDIA® CMX™ è un livello di contesto nativo IA per l'inferenza dell'IA a lungo contesto, multi-turn e agentica. Basato sul processore di storage NVIDIA BlueField®‑4, estende la memoria della GPU con uno strato di contesto condiviso a livello di pod ottimizzato per la cache KV (Key Value) effimera. La piattaforma fornisce un percorso a elevata larghezza di banda che riduce la latenza, i costi e il consumo energetico per i carichi di lavoro di inferenza su larga scala, contribuendo a offrire un throughput più elevato e una migliore efficienza energetica sulle piattaforme NVIDIA Rubin.
Prodotti
Dalla memoria contestuale accelerata e il movimento sicuro dei dati ai fabric Ethernet e i framework di inferenza, NVIDIA CMX è il risultato di una co-progettazione estrema del calcolo, della rete, dello storage e del software.
Vantaggi del prodotto
NVIDIA CMX introduce un livello di contesto dedicato che migliora il throughput sostenuto e l'efficienza energetica per i carichi di lavoro a lungo contesto e ad alta intensità di cache KV rispetto agli approcci allo storage tradizionali.
Scala i servizi IA con un livello di storage altamente efficiente e ottimizzato per la cache KV che recupera la potenza essenziale, rendendo disponibile una parte maggiore del budget energetico del data center per le GPU anziché per lo storage tradizionale.
Ottimizza i percorsi dei dati e riduci i tempi di stallo riutilizzando la cache KV pre-calcolata dallo strato CMX senza doverla ricalcolare. Ciò aumenta i token al secondo e il throughput per l'inferenza multi-turn e agentica. CMX riduce il time-to-first-token e il time-to-last-token, in modo che le risposte vengano trasmesse in streaming prima e terminino più velocemente, anche con la crescita dei modelli, delle finestre di contesto e della concorrenza.
Fornisci un accesso ad alta velocità e a livello di pod al contesto nativo IA per consentire agli agenti multi-turn di coordinarsi, condividere lo stato e scalare facilmente con la crescita dei carichi di lavoro, riducendo al contempo la duplicazione della cache KV e la capacità inutilizzata dei nodi.
Offri un'enorme capacità di cache KV per supportare il ragionamento a lungo contesto, i flussi di lavoro multi-agente, i modelli da trilioni di parametri e le finestre di contesto più lunghe per numerosi utenti simultanei.
NVIDIA STX è un'architettura di riferimento modulare per lo storage IA, co-progettata insieme ai principali partner di storage e basata su calcolo, rete e software IA accelerati da NVIDIA. NVIDIA STX fornisce la base per creare un motore di dati universale che accelera il ciclo di vita completo dell'IA, dall'addestramento e l'analisi all'inferenza per agenti in tempo reale.
Ecosistema
Risorse
Contatta il team di vendita enterprise NVIDIA o il partner giusto nel programma NVIDIA Partner Network (NPN) per iniziare.
Parla con uno specialista NVIDIA delle tue esigenze aziendali.
Iscriviti per ricevere le ultime notizie, gli aggiornamenti e altro da NVIDIA.