Benchmark MLPerf

La piattaforma NVIDIA AI offre prestazioni e versatilità di livello mondiale nei benchmark di formazione, inferenza e HPC di MLPerf per i carichi di lavoro di intelligenza artificiale più esigenti e reali.

Che cosa è MLPerf?

I benchmark MLPerf™, sviluppati da MLCommons, un consorzio di leader dell’IA provenienti dal mondo accademico, dai laboratori di ricerca e dall’industria, sono progettati per fornire valutazioni imparziali della formazione e delle prestazioni di inferenza per hardware, software e servizi. Sono tutti condotti in condizioni prestabilite. Per rimanere all’avanguardia nelle tendenze del settore, MLPerf continua a evolversi, tenendo nuovi test a intervalli regolari e aggiungendo nuovi carichi di lavoro che rappresentano lo stato dell’arte nell’IA.

Dentro i benchmark MLPerf

MLPerf Inference v5.1 misura le prestazioni di inferenza su 10 diversi modelli di IA, tra cui una varietà di modelli linguistici di grandi dimensioni (LLM), un LLM per il ragionamento, l'IA generativa da testo a immagine, i consigli, il testo a voce e la rete neurale a grafici (GNN).

MLPerf Training v5.1 misura il tempo per addestrare sette diversi modelli, coprendo i seguenti casi d'uso: LLM (pre-addestramento e ottimizzazione), generazione di immagini, GNN, rilevamento di oggetti e raccomandazioni.

Modello linguistico di grandi dimensioni per il ragionamento

Modello linguistico di grandi dimensioni che genera token di ragionamento intermedio o di riflessione per migliorare la precisione delle risposte.

Dettagli

Modelli linguistici di grandi dimensioni

Algoritmi di deep learning addestrati su set di dati su larga scala in grado di riconoscere, riassumere, tradurre, prevedere e generare contenuti per una vasta gamma di casi d'uso.

Dettagli

Text-to-Image

Genera immagini dai prompt di testo.

Dettagli

Raccomandazione

Offre risultati personalizzati nei servizi rivolti all'utente, come social media o siti di e-commerce apprendendo le interazioni tra utenti e servizi, come prodotti o annunci.

Dettagli

Rilevamento di oggetti (leggero)

Rileva istanze di oggetti del mondo reale come visi, biciclette ed edifici all'interno di immagini o video e delinea una bounding box attorno a ciascuno.

Dettagli

Rete neurale a grafo

Utilizza reti neurali progettate per lavorare con dati strutturati come grafici.

Dettagli

Speech-to-Text

Converte il linguaggio parlato in testo scritto.

Dettagli

I risultati NVIDIA nel benchmark MLPerf

La piattaforma NVIDIA ha ottenuto il tempo più rapido per l'addestramento su tutti i sette benchmark MLPerf Training v5.1. Blackwell Ultra ha fatto il suo debutto, offrendo grandi passi avanti per il pre-addestramento e la messa a punto dei modelli linguistici di grandi dimensioni, grazie ai miglioramenti architettonici e ai metodi rivoluzionari di addestramento NVFP4 che aumentano le prestazioni e soddisfano i severi requisiti di precisione MLPerf. NVIDIA ha inoltre aumentato di 2,7 volte su larga scala le prestazioni di pre-addestramento di Blackwell Llama 3.1 405B attraverso una combinazione di scala raddoppiata e di grandi aumenti delle prestazioni per GPU resi possibili da NVFP4. NVIDIA ha inoltre stabilito record di prestazioni su entrambi i benchmark aggiunti di recente, Llama 3.1 8B e FLUX.1, continuando al contempo a detenere record di prestazioni sui benchmark esistenti per i sistemi di raccomandazione, il rilevamento di oggetti e le reti neurali a grafici.

NVIDIA Blackwell Ultra compie un grande passo avanti nel debutto del MLPerf Training

Risultati dell'addestramento MLPerf™ v5.0 e v5.1 recuperati da www.mlcommons.org il 12 novembre 2025 dalle seguenti voci: 4.1-0050, 5.0-0014, 5.0-0067, 5.0-0076, 5.1-0058, 5.1-0060. Il nome e il logo MLPerf™ sono marchi registrati di MLCommons Association negli Stati Uniti e in altri paesi. Tutti i diritti riservati. L'uso non autorizzato è severamente vietato. Vedi www.mlcommons.org per maggiori informazioni.

Ritmo annuale e co-progettazione estrema per la leadership sostenuta dell'addestramento

La piattaforma NVIDIA ha fornito i tempi di addestramento più rapidi su ogni benchmark MLPerf Training v5.1, con innovazioni nei chip, nei sistemi e nel software che hanno permesso la leadership sostenuta delle prestazioni di addestramento, come mostrano i dati sulle prestazioni standard di settore e rivisti da parte di pari.

Prestazioni di scala massima

Benchmark Time to Train
LLM Pretraining (Llama 3.1 405B) 10 minutes
LLM Pretraining (Llama 3.1 8B) 5.2 minutes
LLM Fine-Tuning (Llama 2 70B LoRA) 0.40 minutes
Image Generation (FLUX.1) 12.5 minutes
Recommender (DLRM-DCNv2) 0.71 minutes
Graph Neural Network (R-GAT) 0.84 minutes
Object Detection (RetinaNet) 1.4 minutes

Risultati dell'addestramento MLPerf™ v5.0 e v5.1 recuperati da www.mlcommons.org il 12 novembre 2025 dalle seguenti voci: 5.0-0082, 5.1-0002, 5.1-0004, 5.1-0060, 5.1-0070, 5.1-0072. Il nome e il logo MLPerf™ sono marchi registrati di MLCommons Association negli Stati Uniti e in altri paesi. Tutti i diritti riservati. L'uso non autorizzato è severamente vietato. Per ulteriori informazioni, consulta www.mlcommons.org.

Blackwell Ultra stabilisce nuovi record per l'inferenza per il ragionamento in MLPerf Inference v5.1

La piattaforma NVIDIA ha stabilito molti nuovi record in MLPerf Inference v5.1, incluso i nuovi e complessi test di ragionamento DeepSeek-R1 e di interazione Llama 3.1. Inoltre, continua a detenere tutti i record sulle prestazioni di inferenza MLPerf per GPU nella categoria dei data center. Il sistema GB300 NVL72, basato sull'architettura GPU NVIDIA Blackwell Ultra, ha fatto il suo debutto solo sei mesi dopo che NVIDIA Blackwell ha stabilito nuovi record nel benchmark di inferenza per il ragionamento DeepSeek-R1. Anche NVIDIA Dynamo ha fatto il suo debutto in questo round, con il suo servizio disaggregato, aumentando notevolmente le prestazioni di ogni GPU Blackwell su Llama 3.1 405B Interactive. Le prestazioni e il ritmo dell'innovazione nella piattaforma NVIDIA consentono una maggiore intelligenza, un maggiore potenziale di entrate per le fabbriche di IA e un costo inferiore per milione di token.

La piattaforma NVIDIA detiene ogni record per GPU nei data center nell'inferenza MLPerf

Benchmark Offline Server Interactive
DeepSeek-R1 5,842 Tokens/Second 2,907 Tokens/Second *
Llama 3.1 405B 224 Tokens/Second 170 Tokens/Second 138 Tokens/Second
Llama 2 70B 99.9% 12,934 Tokens/Second 12,701 Tokens/Second 7,856 Tokens/Second
Llama 3.1 8B 18,370 Tokens/Second 16,099 Tokens/Second 15,284 Tokens/Second
Mistral 8x7B 16,099 Tokens/Second 16,131 Tokens/Second *
Stable Diffusion XL 4.07 Samples/Second 3.59 Queries/Second *
DLRMv2 99% 87,228 Tokens/Second 80,515 Tokens/Second *
DLRMv2 99.9% 48,666 Tokens/Second 46,259 Tokens/Second *
RetinaNet 1,875 samples/second/GPU 1,801 queries/second/GPU *
Whisper 5,667 Tokens/Second * *
Graph Neural Network 81,404 Tokens/Second * *

* Gli scenari non fanno parte delle suite di benchmark MLPerf Inference v5.0 o v5.1.

MLPerf Inference v5.0 e v5.1, Divisione Chiusa. Risultati recuperati da www.mlcommons.org il 9 settembre 2025. Risultati della piattaforma NVIDIA provenienti dalle seguenti voci: 5.0-0072, 5.1-0007, 5.1-0053, 5.1-0079, 5.1-0028, 5.1-0062, 5.1-0086, 5.1-0073, 5.1-0008, 5.1-0070,5.1-0046, 5.1-0009, 5.1-0060, 5.1-0072. 5.1-0071, 5.1-0069 Prestazioni per chip ottenute dividendo il throughput totale per il numero di chip riportati. Le prestazioni per chip non sono una metrica primaria di MLPerf Inference v5.0 o v5.1. Il nome e il logo MLPerf sono marchi registrati e non registrati della MLCommons Association negli Stati Uniti e in altri paesi. Tutti i diritti riservati. L'uso non autorizzato è severamente vietato. Per ulteriori informazioni, consulta http://www.mlcommons.org.

La tecnologia dietro ai risultati

La complessità dell’IA richiede una stretta integrazione di tutti gli aspetti della piattaforma. Come dimostrato dai benchmark MLPerf, la piattaforma NVIDIA AI offre prestazioni di leadership con la GPU più avanzata al mondo, tecnologie di interconnessione potenti e scalabili e software all'avanguardia, una soluzione end-to-end che può essere installata nel data center, nel cloud o sui sistemi periferici con risultati incredibili.

Software ottimizzato che accelera i flussi di lavoro IA

Fattore essenziale dei risultati di training e inferenze MLPerf e della piattaforma NVIDIA, il catalogo NGC™ è un hub ottimizzato da GPU per software IA, HPC e analisi dei dati che semplifica e accelera i flussi di lavoro completi. Con oltre 150 container di livello aziendale, tra cui carichi di lavoro per l’IA generativa, l’IA conversazionale e sistemi recommender; centinaia di modelli di AI; e SDK specifici per il settore che possono essere distribuiti in locale, nel cloud o sui sistemi periferici, NGC consente a data scientist, ricercatori e sviluppatori di creare soluzioni all'avanguardia, raccogliere informazioni e offrire valore aziendale più velocemente che mai.

Infrastruttura IA leader

Per ottenere risultati leader a livello mondiale in materia di training e inferenza è necessaria un'infrastruttura appositamente costruita per le sfide di intelligenza artificiale più complesse del mondo. La piattaforma NVIDIA AI ha offerto prestazioni leader basate sulle piattaforme NVIDIA Blackwell e Blackwell Ultra, tra cui i sistemi NVIDIA GB300 NVL72 e GB200 NVL72, NVLink e NVLink Switch e Quantum InfiniBand. Questi rappresentano il centro delle fabbriche di IA alimentate dalla piattaforma dei data center NVIDIA, il motore dietro le nostre prestazioni benchmark.

Inoltre, i sistemi NVIDIA DGX™ offrono la scalabilità, la distribuzione rapida e l'incredibile potenza di calcolo che consentono a ogni impresa di progettare un'infrastruttura IA leader di settore. 

Sbloccare l'IA generativa sull'edge grazie a prestazioni trasformative

NVIDIA Jetson Orin offre un'ineguagliabile capacità di calcolo IA, una grande memoria unificata e stack software completi, offrendo un'efficienza energetica superiore per alimentare le ultime applicazioni di IA generativa. È in grado di effettuare inferenze rapide per qualsiasi modello di IA generativa alimentato dall'architettura trasformativa, fornendo prestazioni edge superiori su MLPerf.

Scopri di più sulle prestazioni dei nostri prodotti per l'inferenza e l'addestramento dei data center.

Modelli linguistici di grandi dimensioni

MLPerf Training utilizza il modello linguistico generativo Llama 3.1 con 405 miliardi di parametri e una lunghezza di sequenza di 8.192 per il carico di lavoro di pre-addestramento LLM con il set di dati c4 (v3.0.1). Per il test di calibrazione LLM, utilizza il modello Llama 2 70B con il set di dati GovReport con lunghezze di sequenza di 8.192. Llama 3.1 8B utilizza anche il set di dati C4 con lunghezze di sequenza di 8.192.

MLPerf Inference utilizza il modello Llama 3.1 405B con i seguenti set di dati: il riepilogo LongBench, RULER e GovReport; il modello Llama 2 70B con il set di dati OpenORCA; il modello Mixtral 8x7B con i set di dati OpenORCA, GSM8K e MBXP; il modello Llama 3.1 8B con il set di dati CNN-DailyMail.

Text-to-Image

MLPerf Training utilizza il modello text-to-image FLUX.1 addestrato sul set di dati CC12M con il set di dati COCO 2014 per la valutazione.

MLPerf Inference utilizza il modello di testo-immagine Stable Diffusion XL (SDXL) con un sottoinsieme di 5.000 prompt dal set di dati coco-val-2014. 

Raccomandazione

MLPerf Training and Inference utilizza il Deep Learning Recommendation Model v2 (DLRMv2) che impiega DCNv2 cross-layer e un dataset multi-hot sintetizzato dal dataset Criteo.

Rilevamento di oggetti (leggero)

MLPerf Training utilizza Single-Shot Detector (SSD) con backbone ResNeXt50 su un sottoinsieme del Dataset Google OpenImages.

LLM per il ragionamento

MLPerf Inference utilizza il modello DeepSeek-R1 con campioni provenienti dai seguenti set di dati: AIME, MATH500, GPQA-Diamond, MMLU-Pro, LiveCodeBench.

Elaborazione del linguaggio naturale (NLP)

MLPerf Training utilizza BERT (Bidirectional Encoder Representations from Transformers) sul set di dati di Wikipedia in data 01/01/2020.

Rete neurale a grafo

MLPerf Training utilizza R-GAT con l'Illinois Graph Benchmark (IGB), set di dati eterogenei.

Speech-to-Text

MLPerf Inference utilizza Whisper-Large-V3 con il set di dati LibriSpeech.

Server

4X

Offline

3.7X

Superchip IA

208 miliardi di transistor

Motore transformer di seconda generazione

Tensor Core FP4/FP6

NVLINK di quinta generazione

Scalabile fino a 576 GPU

Motore RAS

Autotest interno al sistema al 100%

IA sicura

Crittografia e TEE con prestazioni complete

Motore di decompressione

800 GB/sec