Ottimizza le prestazioni dei carichi di lavoro IA sull'infrastruttura IA di NVIDIA.
Panoramica
NVIDIA Performance Benchmarking è una suite di strumenti, ricette e servizi che semplifica la misurazione delle prestazioni dei carichi di lavoro e delle infrastrutture IA. NVIDIA Performance Benchmarking fornisce un mezzo standardizzato e oggettivo per valutare le prestazioni su tutte le piattaforme, essenziale per ottimizzare i carichi di lavoro IA e accelerare i risultati.
Ottimizza le prestazioni del carico di lavoro IA su qualsiasi infrastruttura NVIDIA accelerata con la suite di strumenti, servizi e ricette di benchmarking delle prestazioni.
Utilizzando Performance Explorer, gli utenti possono identificare il conteggio ideale di GPU in grado di ridurre al minimo sia il tempo totale di addestramento che i costi. L'obiettivo è identificare il numero giusto di GPU per un dato carico di lavoro al fine di massimizzare il throughput e ridurre al minimo le spese, per progetti e team.
Ottieni il massimo dagli ambienti per il carico di lavoro IA e sblocca tutto il potenziale della tua infrastruttura IA con il benchmarking delle prestazioni NVIDIA.
Determina quale piattaforma può fornire il tempo di addestramento più veloce o la scala della GPU desiderata, e a quale costo, utilizzando dati sulle prestazioni in tempo reale ed end-to-end.
Sintonizza e ottimizza i carichi di lavoro IA in base a metriche end-to-end su misura per le prestazioni delle moderne applicazioni di IA generativa.
Non limitarti alle sole GPU, ma valuta software di infrastruttura, piattaforme cloud e configurazioni delle applicazioni, per ottenere una visione olistica delle prestazioni dei carichi di lavoro.
Ottieni un mezzo standardizzato e un obiettivo per misurare le prestazioni della piattaforma e comprendere le prestazioni previste per dati carichi di lavoro o casi d'uso.
In MLPerf Inference v6.0 (aprile 2026), i sistemi basati su GPU NVIDIA Blackwell Ultra (GB300 NVL72) hanno offerto il massimo throughput nella più ampia gamma di modelli e scenari. Su DeepSeek-R1, GB300 NVL72 ha fornito 2,5 milioni di token al secondo, un throughput di token fino a 2,7 volte superiore rispetto ai risultati del debutto di GB300 NVL72 solo sei mesi prima, grazie agli aggiornamenti del software TensorRT-LLM.
Nel misurare il rapporto costo-efficacia dell'inferenza IA, è importante non guardare solo i costi di calcolo o i FLOPs per dollaro perché queste metriche offrono un quadro incompleto. La metrica più importante per l'efficacia dei costi dell'inferenza IA è il costo per token, o il rapporto prezzo-prestazioni effettivamente offerto, soprattutto su MoE e sui modelli di ragionamento. NVIDIA GB300 NVL72 offre inferenza IA a 0,123 dollari per milione di token a 116 TPS/interattività utente utilizzando NVIDIA Dynamo e TensorRT™-LLM, il costo più basso per token tra le principali piattaforme, secondo i benchmark SemiAnalysis InferenceX ad aprile 2026.
NVIDIA Blackwell B200 raggiunge un valore di 0,02 dollari per milione di token su GPT-OSS-120B utilizzando TensorRT-LLM, secondo i benchmark SemiAnalysis InferenceX ad aprile 2026: un miglioramento di 5 volte rispetto ai costi del giorno del lancio di 0,11 dollari/milioni di token ottenuto attraverso la sola ottimizzazione del software.
NVIDIA B300 (Blackwell Ultra) è stata progettata per soddisfare le crescenti esigenze di capacità di calcolo e di memoria dell'inferenza IA con contesti estesi e ragionamento. Con un aumento di 1,5 volte delle prestazioni FP4 dense, prestazioni di attenzione 2 volte superiori e 1,5 volte di memoria HBM in più rispetto a NVIDIA B200, B300 è in grado di aumentare il throughput di ragionamento IA per le lunghezze di contesto più ampie. GB300 NVL72 offre inferenza IA a 0,123 dollari per milione di token a 116 TPS/interattività utente utilizzando NVIDIA Dynamo e TensorRT-LLM, il costo più basso per token tra le principali piattaforme, secondo i benchmark SemiAnalysis InferenceX ad aprile 2026.
Oggi esistono alcuni benchmark di inferenza IA indipendenti di terze parti ampiamente utilizzati nel settore. MLPerf Inference è il benchmark standard di settore di MLCommons che misura il throughput e la latenza nei carichi di lavoro standardizzati. InferenceX, di SemiAnalysis, è il primo benchmark indipendente per misurare il costo totale del calcolo in diversi modelli e scenari del mondo reale. InferenceX v2 lo estende per valutare l'intera curva di frontiera di Pareto. Ad aprile 2026, NVIDIA Blackwell Ultra (GB300 NVL72) è in testa a tutte e tre le suite di benchmark.
Raggiungi prestazioni ottimali del carico di lavoro IA per TCO in partnership con NVIDIA con benchmark convalidati basati su dati.
Accedi alla documentazione tecnica del software modulare che aiuta i partner a gestire l'infrastruttura IA e a fornire servizi di IA.