Benchmarks MLPerf

La plate-forme d'IA de NVIDIA atteint des records de performance et de polyvalence sur les benchmarks MLPerf Training, d'inférence et HPC pour les charges de travail d'IA réelles les plus exigeantes.

Qu'est-ce que MLPerf ?

Les benchmarks MLPerf™ sont développés par MLCommons, un consortium d'experts de l'IA issus du monde universitaire, des laboratoires de recherche et du secteur, et sont conçus pour fournir des évaluations impartiales des performances d'entraînement et d'inférence pour le matériel, les logiciels et les services. Les tests sont tous effectués selon des modalités prescrites. MLPerf évolue de manière continue en réalisant de nouveaux tests à intervalles réguliers et en intégrant de nouvelles charges de travail qui suivent les dernières évolutions de l'IA pour rester à la pointe des dernières tendances du secteur.

Sous le capot des benchmarks MLPerf

MLPerf Inference v5.1 mesure les performances d'inférence sur 10 modèles d'IA différents, notamment une variété de grands modèles de langage (LLM), un LLM de raisonnement, l'IA générative texte-à-image, la recommandation, la synthèse texte-à-parole et un réseau de neurones de graphes (GNN).

MLPerf Training v5.1 mesure le temps d'entraînement de sept modèles différents, couvrant les cas d'utilisation suivants : LLM (pré-entraînement et ajustement fin), génération d'images, GNN, détection d'objets et recommandation.

Grand modèle de langage de raisonnement

Grand modèle de langage qui génère des jetons de raisonnement intermédiaires, ou de pensée, pour améliorer la précision de la réponse.

Détails

Grands modèles de langage

Algorithmes de Deep Learning entraînés sur des ensembles de données à grande échelle et capables de reconnaître, de résumer, de traduire, de prédire et de générer du contenu pour une variété de cas d'utilisation.

Détails

Texte à image

Génère des images à partir d'invites textuelles.

Détails

Recommandation

Fournit des résultats personnalisés pour les services à destination des utilisateurs finaux, tels que les réseaux sociaux ou les sites de commerce électronique, en analysant les interactions entre les utilisateurs et les éléments de service comme les produits ou les publicités.

Détails

Détection standard d’objets

Identifie des objets concrets, par exemple des visages, des vélos et des bâtiments, à partir d'images ou de vidéos, puis leur assigne une zone de délimitation.

Détails

Réseau neuronal graphique

Utilise des réseaux neuronaux conçus pour travailler avec des données structurées sous forme de graphiques.

Détails

Synthèse vocale

Convertit le langage parlé en texte écrit.

Détails

Résultats de NVIDIA sur les benchmarks MLPerf

La plateforme de NVIDIA a atteint le temps le plus rapide d'entraînement sur les sept benchmarks MLPerf Training v5.1. Blackwell Ultra a fait ses débuts en permettant des avancées considérables pour le pré-entraînement et le réglage fin de grands modèles de langage, grâce à des améliorations architecturales et à des méthodes d'entraînement NVFP4 révolutionnaires qui augmentent les performances et répondent aux exigences strictes de précision de MLPerf. NVIDIA a également augmenté de 2,7 fois les performances de pré-entraînement de Blackwell Llama 3.1 405B à grande échelle grâce à une combinaison d'une échelle deux fois supérieure à celle de grandes augmentations des performances par GPU activées par NVFP4. NVIDIA a également établi des records de performances sur les deux benchmarks nouvellement ajoutés, Llama 3.1 8B et FLUX.1, tout en continuant de détenir des records de performances sur les benchmarks existants de recommandation, de détection d'objets et de benchmarks de réseaux de neurones.

NVIDIA Blackwell Ultra fait un grand bond en avant lors de ses débuts avec MLPerf Training.

Résultats de MLPerf™ Training v5.0 et v5.1 récupérés à partir de www.mlcommons.org le 12 novembre 2025 à partir des entrées suivantes : 4.1-0050, 5.0-0014, 5.0-0067, 5.0-0076, 5.1-0058, 5.1-0060. Le nom et le logo MLPerf™ sont des marques commerciales de MLCommons Association aux États-Unis et dans d'autres pays. Tous droits réservés. L'utilisation non autorisée est strictement interdite. Voir www.mlcommons.org pour plus d'informations.

Rythme annuel et conception collaborative avancée pour un leadership soutenu de l'entraînement

La plateforme de NVIDIA a fourni le temps d'entraînement le plus rapide sur chaque benchmark MLPerf Training v5.1, avec des innovations au niveau des puces, des systèmes et des logiciels, qui lui ont permis de conserver son leadership en matière de performances d'entraînement, comme le montrent les données de performances standardisées et examinées par les pairs.

Performances d'échelle maximale

Benchmark Time to Train
LLM Pretraining (Llama 3.1 405B) 10 minutes
LLM Pretraining (Llama 3.1 8B) 5.2 minutes
LLM Fine-Tuning (Llama 2 70B LoRA) 0.40 minutes
Image Generation (FLUX.1) 12.5 minutes
Recommender (DLRM-DCNv2) 0.71 minutes
Graph Neural Network (R-GAT) 0.84 minutes
Object Detection (RetinaNet) 1.4 minutes

Résultats de MLPerf™ Training v5.0 et v5.1 récupérés à partir de www.mlcommons.org le 12 novembre 2025 à partir des entrées suivantes : 5.0-0082, 5.1-0002, 5.1-0004, 5.1-0060, 5.1-0070, 5.1-0072. Le nom et le logo MLPerf™ sont des marques commerciales de MLCommons Association aux États-Unis et dans d'autres pays. Tous droits réservés. Utilisation non autorisée strictement interdite. Rendez-vous sur www.mlcommons.org pour en savoir plus.

Blackwell Ultra établit de nouveaux records d'inférence de raisonnement dans MLPerf Inference v5.1

La plateforme de NVIDIA a établi de nombreux nouveaux records dans l'inférence MLPerf v5.1, notamment dans le nouveau raisonnement DeepSeek-R1 et les tests interactifs Llama 3.1 405B, et continue de détenir tous les records de performances d'inférence par GPU dans MLPerf dans la catégorie des Data Centers. Le système à l'échelle de rack GB300 NVL72, basé sur l'architecture GPU NVIDIA Blackwell Ultra, a fait ses débuts six mois seulement après NVIDIA Blackwell, établissant de nouveaux records sur le benchmark d'inférence de raisonnement DeepSeek-R1. NVIDIA Dynamo a également fait ses débuts lors de cette manche avec sa prestation désagrégée, augmentant considérablement les performances de chaque GPU Blackwell sur Llama 3.1 405B Interactive. Les performances et le rythme de l'innovation de la plateforme de NVIDIA permettent une intelligence supérieure, un plus grand potentiel de revenus des usines d'IA et un coût inférieur par million de jetons.

La plateforme de NVIDIA détient tous les records par GPU de Data Center dans l'inférence MLPerf

Benchmark Offline Server Interactive
DeepSeek-R1 5,842 Tokens/Second 2,907 Tokens/Second *
Llama 3.1 405B 224 Tokens/Second 170 Tokens/Second 138 Tokens/Second
Llama 2 70B 99.9% 12,934 Tokens/Second 12,701 Tokens/Second 7,856 Tokens/Second
Llama 3.1 8B 18,370 Tokens/Second 16,099 Tokens/Second 15,284 Tokens/Second
Mistral 8x7B 16,099 Tokens/Second 16,131 Tokens/Second *
Stable Diffusion XL 4.07 Samples/Second 3.59 Queries/Second *
DLRMv2 99% 87,228 Tokens/Second 80,515 Tokens/Second *
DLRMv2 99.9% 48,666 Tokens/Second 46,259 Tokens/Second *
RetinaNet 1,875 samples/second/GPU 1,801 queries/second/GPU *
Whisper 5,667 Tokens/Second * *
Graph Neural Network 81,404 Tokens/Second * *

* Scénarios qui ne font pas partie des suites de benchmark MLPerf Inference v5.0 ou v5.1.

Inférence MLPerf v5.0 et v5.1, division fermée. Résultats récupérés à partir de www.mlcommons.org le 9 septembre 2025. La plateforme de NVIDIA résulte des entrées suivantes : 5.0-0072, 5.1-0007, 5.1-0053, 5.1-0079, 5.1-0028, 5.1-0062, 5.1-0086, 5.1-0073, 5.1-0008, 5.1-0070, 5.1-0046, 5.1-0009, 5.1-0060, 5.1-0072. 5.1-0071, 5.1-0069 Performances par puce dérivées en divisant le débit total par le nombre de puces déclarées. Les performances par puce ne sont pas une métrique principale de l'inférence MLPerf v5.0 ou v5.1. Le nom et le logo de MLPerf sont des marques déposées et non déposées de MLCommons Association aux États-Unis et dans d’autres pays. Tous droits réservés. Utilisation non autorisée strictement interdite. Rendez-vous sur www.mlcommons.org pour en savoir plus.

La technologie à l’œuvre derrière les résultats

La complexité grandissante des nouvelles demandes de l’IA requiert une intégration étroite entre tous les aspects de la plate-forme. Comme nous l’avons démontré avec les résultats de benchmark de MLPerf, la plate-forme d’IA de NVIDIA offre des performances record avec le GPU le plus avancé au monde, des technologies d’interconnexion puissantes et évolutives ainsi que des logiciels de pointe, qui forment une solution avancée de bout en bout aux résultats exceptionnels pouvant être déployée dans le Data Center, dans le Cloud ou sur l’Edge.

Environnement logiciel optimisé pour accélérer les workflows d'IA

Composant essentiel de la plate-forme de NVIDIA et facteur déterminant pour expliquer les résultats obtenus avec MLPerf, le catalogue NGC™ est un outil d'IA, de HPC et d'analyse de données optimisé par GPU qui simplifie et accélère les workflows de bout en bout. NGC permet aux data scientists, aux chercheurs et aux développeurs de créer des solutions de pointe, de récolter des informations et de générer de la valeur ajoutée à une vitesse sans précédent, et ce, grâce à plus de 150 conteneurs de qualité professionnelle, y compris des charges de travail pour l'IA générative, l'IA conversationnelle et les systèmes de recommandation, des centaines de modèles d'IA et des kits de développement logiciel spécifiques à des secteurs donnés et pouvant être déployés sur site, dans le Cloud ou à l'Edge.

Une infrastructure d'IA de premier ordre

L’obtention de résultats probants pour l’entraînement et l’inférence requiert une infrastructure spécifiquement conçue pour répondre aux défis les plus complexes au monde en matière d’IA. La plateforme d'IA de NVIDIA a offert des performances de pointe alimentées par les plateformes NVIDIA Blackwell et Blackwell Ultra, notamment les systèmes NVIDIA GB300 NVL72 et GB200 NVL72, NVLink et NVLink Switch, et Quantum InfiniBand. Celles-ci sont au cœur des usines d'IA alimentées par la plate-forme de Data Center de NVIDIA, moteur de nos performances de benchmark.

Les systèmes NVIDIA DGX™ offrent une évolutivité élevée, un déploiement rapide et une puissance de calcul exceptionnelle qui permettent à toutes les entreprises de concevoir des infrastructures d’IA à la pointe de la technologie.

Libérer l'IA générative à l'Edge grâce à des performances exceptionnelles

NVIDIA Jetson Orin offre des capacités de calcul IA sans précédent, une grande mémoire unifiée et des piles logicielles complètes, le tout avec une efficacité énergétique sans précédent afin de tirer parti des applications d'IA générative les plus récentes. Son architecture de transformation permet une inférence rapide de n'importe quel modèle d'IA générative pour des performances de pointe à l'Edge sur le benchmark MLPerf.

En savoir plus sur nos performances d'entrainement et d'inférence de Data Center.

Grands modèles de langage

MLPerf Training utilise le modèle de langage génératif Llama 3.1 avec 405 milliards de paramètres et une longueur de séquence de 8 192 pour la charge de travail de pré-entraînement des LLM avec le jeu de données c4 (v3.0.1). Pour le test d'affinage LLM, le modèle Llama 2 70B avec le jeu de données GovReport avec des longueurs de séquence de 8 192. Llama 3.1 8B utilise également le jeu de données C4 avec des longueurs de séquence de 8 192.

L'inférence MLPerf utilise le modèle Llama 3.1 405B avec les jeux de données suivants : résumé de LongBench, RULER et GovReport ; le modèle Llama 2 70B avec le jeu de données OpenORCA ; le modèle Mixtral 8x7B avec les jeux de données OpenORCA, GSM8K et MBXP ; et le modèle Llama 3.1 8B avec le jeu de données CNN-DailyMail.

Texte à image

MLPerf Training utilise le modèle texte-à-image FLUX.1 entraîné sur le jeu de données CC12M avec le jeu de données COCO2014 pour l'évaluation.

MLPerf Inference utilise le modèle de texte à image Stable Diffusion XL (SDXL) avec un sous-ensemble de 5 000 invites issues de du jeu de données coco-val-2014. 

Recommandation

MLPerf Training et Inference utilisent DLRMv2 (Deep Learning Recommendation Model v2), qui exploite DCNv2 multi-couches ainsi qu'un jeu de données multi-hôtes synthétisé à partir du jeu de données Criteo.

Détection standard d’objets

MLPerf Training utilise un modèle Single-Shot Detector (SSD) avec une base ResNeXt50 sur un sous-ensemble du jeu de données Google OpenImages.

LLM de raisonnement

L'inférence MLPerf utilise le modèle DeepSeek-R1 avec des échantillons provenant des jeux de données suivants : AIME, MATH500, GPQA-Diamond, MMLU-Pro, LiveCodeBench.

Traitement du langage naturel (NLP)

MLPerf Training utilise des représentations d’encodage bidirectionnelles à partir de Transformers (BERT) sur un jeu de données Wikipedia datant du 01/01/2020.

Réseau neuronal graphique

MLPerf Training utilise R-GAT avec le jeu de données hétérogènes Illinois Graph Benchmark (IGB).

Synthèse vocale

L'inférence de MLPerf utilise Whisper-Large-V3 avec le jeu de données LibriSpeech.

Serveur

4 fois

Hors ligne

3,7 fois

Superpuce pour l'IA

208 milliards de transistors

Moteur de transformation de 2ᵉ génération

Cœur Tensor FP4/FP6

NVLINK de 5ᵉ génération

Extension jusqu'à 576 GPU

Moteur RAS

Auto-test entièrement dans le système

IA sécurisée

Cryptage et TEE hautes performances

Moteur de décompression

800 Go/s