Panoramica
L'inferenza dell'IA, ovvero il modo in cui sperimentiamo l'IA attraverso chatbot, copiloti e strumenti creativi, sta crescendo a un doppio ritmo esponenziale. L'adozione da parte degli utenti sta accelerando mentre i token IA generati per interazione, basati su flussi di lavoro agentici, ragionamento a lungo termine e modelli mixture-of-experts (MoE), aumentano in parallelo.
Per consentire l'inferenza su questa scala massiccia, NVIDIA offre un'architettura su larga scala per i data center annualmente. La nostra co-progettazione estrema di hardware e software offre degli aumenti notevoli in termini di prestazioni e riduce il costo per token, risultando in esperienze di IA avanzata economicamente fattibili su larga scala.
NVIDIA GB300 NVL72 offre 50 volte più token per watt e un costo dei token 35 volte inferiore rispetto a Hopper™, massimizzando i ricavi a parità di budget energetico e aumentando i margini di profitto. Le continue ottimizzazioni del software estraggono le massime prestazioni a livello di chip, rack e data center, migliorando ulteriormente il ritorno sull'investimento nel lungo termine.
Vantaggi
Grazie a una coprogettazione estrema di hardware e software, NVIDIA GB300 NVL72 offre un numero di token per watt 50 volte superiore rispetto a Hopper, massimizzando i ricavi delle fabbriche IA a parità di budget energetico. Le continue ottimizzazioni del software estraggono le massime prestazioni a livello di chip, rack e data center, migliorando ulteriormente il ritorno sull'investimento nel lungo termine.
Il sistema NVIDIA GB300 NVL72 offre un costo per token 35 volte inferiore rispetto alla piattaforma NVIDIA Hopper, aumentando i margini di profitto delle fabbriche IA. Con ogni generazione, i miglioramenti delle prestazioni superano di gran lunga i costi dell'infrastruttura, creando una migliore economia per consentire esperienze IA avanzate su larga scala.
NVIDIA supporta ogni modello di IA generativa, ML tradizionale, calcolo scientifico, biologia e IA fisica. Dalle applicazioni in tempo reale sensibili alla latenza all'elaborazione in batch ad alto throughput, NVIDIA offre le migliori prestazioni per ogni caso d'uso. La piattaforma offre la massima flessibilità e programmabilità per scegliere la configurazione ottimale per il carico di lavoro e i requisiti aziendali in continua evoluzione.
I software NVIDIA pronti per la produzione, tra cui Dynamo e TensorRT™ LLM, e l'integrazione nativa con i principali framework come PyTorch, vLLM, SGLang e llm-d, offrono lo stack di inferenza IA più robusto. Con la rapida evoluzione delle architetture dei modelli e delle tecniche di inferenza, lo stack NVIDIA garantisce il percorso più rapido dall'innovazione alla produzione.
Piattaforma
Un hardware potente senza un'orchestrazione intelligente spreca il potenziale; un software eccellente senza hardware veloce significa prestazioni di inferenza lente. La piattaforma di inferenza NVIDIA offre una soluzione completa e continuamente ottimizzata con calcolo, rete, storage e software co-progettati per consentire le massime prestazioni su diversi carichi di lavoro.
Scopri alcune delle principali innovazioni hardware e software NVIDIA.
Testimonianze dei clienti
Risorse
Prossimi passi