Les benchmarks MLPerf™ sont développés par MLCommons, un consortium d'experts de l'IA issus du monde universitaire, des laboratoires de recherche et du secteur, et sont conçus pour fournir des évaluations impartiales des performances d'entraînement et d'inférence pour le matériel, les logiciels et les services. Les tests sont tous effectués selon des modalités prescrites. MLPerf évolue de manière continue en réalisant de nouveaux tests à intervalles réguliers et en intégrant de nouvelles charges de travail qui suivent les dernières évolutions de l'IA pour rester à la pointe des dernières tendances du secteur.
MLPerf Inference v5.1 mesure les performances d'inférence sur 10 modèles d'IA différents, notamment une variété de grands modèles de langage (LLM), un LLM de raisonnement, l'IA générative texte-à-image, la recommandation, la synthèse texte-à-parole et un réseau de neurones de graphes (GNN).
MLPerf Training v5.1 mesure le temps d'entraînement de sept modèles différents, couvrant les cas d'utilisation suivants : LLM (pré-entraînement et ajustement fin), génération d'images, GNN, détection d'objets et recommandation.
La plateforme de NVIDIA a atteint le temps le plus rapide d'entraînement sur les sept benchmarks MLPerf Training v5.1. Blackwell Ultra a fait ses débuts en permettant des avancées considérables pour le pré-entraînement et le réglage fin de grands modèles de langage, grâce à des améliorations architecturales et à des méthodes d'entraînement NVFP4 révolutionnaires qui augmentent les performances et répondent aux exigences strictes de précision de MLPerf. NVIDIA a également augmenté de 2,7 fois les performances de pré-entraînement de Blackwell Llama 3.1 405B à grande échelle grâce à une combinaison d'une échelle deux fois supérieure à celle de grandes augmentations des performances par GPU activées par NVFP4. NVIDIA a également établi des records de performances sur les deux benchmarks nouvellement ajoutés, Llama 3.1 8B et FLUX.1, tout en continuant de détenir des records de performances sur les benchmarks existants de recommandation, de détection d'objets et de benchmarks de réseaux de neurones.
Résultats de MLPerf™ Training v5.0 et v5.1 récupérés à partir de www.mlcommons.org le 12 novembre 2025 à partir des entrées suivantes : 4.1-0050, 5.0-0014, 5.0-0067, 5.0-0076, 5.1-0058, 5.1-0060. Le nom et le logo MLPerf™ sont des marques commerciales de MLCommons Association aux États-Unis et dans d'autres pays. Tous droits réservés. L'utilisation non autorisée est strictement interdite. Voir www.mlcommons.org pour plus d'informations.
La plateforme de NVIDIA a fourni le temps d'entraînement le plus rapide sur chaque benchmark MLPerf Training v5.1, avec des innovations au niveau des puces, des systèmes et des logiciels, qui lui ont permis de conserver son leadership en matière de performances d'entraînement, comme le montrent les données de performances standardisées et examinées par les pairs.
| Benchmark | Time to Train |
|---|---|
| LLM Pretraining (Llama 3.1 405B) | 10 minutes |
| LLM Pretraining (Llama 3.1 8B) | 5.2 minutes |
| LLM Fine-Tuning (Llama 2 70B LoRA) | 0.40 minutes |
| Image Generation (FLUX.1) | 12.5 minutes |
| Recommender (DLRM-DCNv2) | 0.71 minutes |
| Graph Neural Network (R-GAT) | 0.84 minutes |
| Object Detection (RetinaNet) | 1.4 minutes |
Résultats de MLPerf™ Training v5.0 et v5.1 récupérés à partir de www.mlcommons.org le 12 novembre 2025 à partir des entrées suivantes : 5.0-0082, 5.1-0002, 5.1-0004, 5.1-0060, 5.1-0070, 5.1-0072. Le nom et le logo MLPerf™ sont des marques commerciales de MLCommons Association aux États-Unis et dans d'autres pays. Tous droits réservés. Utilisation non autorisée strictement interdite. Rendez-vous sur www.mlcommons.org pour en savoir plus.
La plateforme de NVIDIA a établi de nombreux nouveaux records dans l'inférence MLPerf v5.1, notamment dans le nouveau raisonnement DeepSeek-R1 et les tests interactifs Llama 3.1 405B, et continue de détenir tous les records de performances d'inférence par GPU dans MLPerf dans la catégorie des Data Centers. Le système à l'échelle de rack GB300 NVL72, basé sur l'architecture GPU NVIDIA Blackwell Ultra, a fait ses débuts six mois seulement après NVIDIA Blackwell, établissant de nouveaux records sur le benchmark d'inférence de raisonnement DeepSeek-R1. NVIDIA Dynamo a également fait ses débuts lors de cette manche avec sa prestation désagrégée, augmentant considérablement les performances de chaque GPU Blackwell sur Llama 3.1 405B Interactive. Les performances et le rythme de l'innovation de la plateforme de NVIDIA permettent une intelligence supérieure, un plus grand potentiel de revenus des usines d'IA et un coût inférieur par million de jetons.
| Benchmark | Offline | Server | Interactive |
|---|---|---|---|
| DeepSeek-R1 | 5,842 Tokens/Second | 2,907 Tokens/Second | * |
| Llama 3.1 405B | 224 Tokens/Second | 170 Tokens/Second | 138 Tokens/Second |
| Llama 2 70B 99.9% | 12,934 Tokens/Second | 12,701 Tokens/Second | 7,856 Tokens/Second |
| Llama 3.1 8B | 18,370 Tokens/Second | 16,099 Tokens/Second | 15,284 Tokens/Second |
| Mistral 8x7B | 16,099 Tokens/Second | 16,131 Tokens/Second | * |
| Stable Diffusion XL | 4.07 Samples/Second | 3.59 Queries/Second | * |
| DLRMv2 99% | 87,228 Tokens/Second | 80,515 Tokens/Second | * |
| DLRMv2 99.9% | 48,666 Tokens/Second | 46,259 Tokens/Second | * |
| RetinaNet | 1,875 samples/second/GPU | 1,801 queries/second/GPU | * |
| Whisper | 5,667 Tokens/Second | * | * |
| Graph Neural Network | 81,404 Tokens/Second | * | * |
* Scénarios qui ne font pas partie des suites de benchmark MLPerf Inference v5.0 ou v5.1.
Inférence MLPerf v5.0 et v5.1, division fermée. Résultats récupérés à partir de www.mlcommons.org le 9 septembre 2025. La plateforme de NVIDIA résulte des entrées suivantes : 5.0-0072, 5.1-0007, 5.1-0053, 5.1-0079, 5.1-0028, 5.1-0062, 5.1-0086, 5.1-0073, 5.1-0008, 5.1-0070, 5.1-0046, 5.1-0009, 5.1-0060, 5.1-0072. 5.1-0071, 5.1-0069 Performances par puce dérivées en divisant le débit total par le nombre de puces déclarées. Les performances par puce ne sont pas une métrique principale de l'inférence MLPerf v5.0 ou v5.1. Le nom et le logo de MLPerf sont des marques déposées et non déposées de MLCommons Association aux États-Unis et dans d’autres pays. Tous droits réservés. Utilisation non autorisée strictement interdite. Rendez-vous sur www.mlcommons.org pour en savoir plus.
La complexité grandissante des nouvelles demandes de l’IA requiert une intégration étroite entre tous les aspects de la plate-forme. Comme nous l’avons démontré avec les résultats de benchmark de MLPerf, la plate-forme d’IA de NVIDIA offre des performances record avec le GPU le plus avancé au monde, des technologies d’interconnexion puissantes et évolutives ainsi que des logiciels de pointe, qui forment une solution avancée de bout en bout aux résultats exceptionnels pouvant être déployée dans le Data Center, dans le Cloud ou sur l’Edge.
Composant essentiel de la plate-forme de NVIDIA et facteur déterminant pour expliquer les résultats obtenus avec MLPerf, le catalogue NGC™ est un outil d'IA, de HPC et d'analyse de données optimisé par GPU qui simplifie et accélère les workflows de bout en bout. NGC permet aux data scientists, aux chercheurs et aux développeurs de créer des solutions de pointe, de récolter des informations et de générer de la valeur ajoutée à une vitesse sans précédent, et ce, grâce à plus de 150 conteneurs de qualité professionnelle, y compris des charges de travail pour l'IA générative, l'IA conversationnelle et les systèmes de recommandation, des centaines de modèles d'IA et des kits de développement logiciel spécifiques à des secteurs donnés et pouvant être déployés sur site, dans le Cloud ou à l'Edge.
L’obtention de résultats probants pour l’entraînement et l’inférence requiert une infrastructure spécifiquement conçue pour répondre aux défis les plus complexes au monde en matière d’IA. La plateforme d'IA de NVIDIA a offert des performances de pointe alimentées par les plateformes NVIDIA Blackwell et Blackwell Ultra, notamment les systèmes NVIDIA GB300 NVL72 et GB200 NVL72, NVLink et NVLink Switch, et Quantum InfiniBand. Celles-ci sont au cœur des usines d'IA alimentées par la plate-forme de Data Center de NVIDIA, moteur de nos performances de benchmark.
Les systèmes NVIDIA DGX™ offrent une évolutivité élevée, un déploiement rapide et une puissance de calcul exceptionnelle qui permettent à toutes les entreprises de concevoir des infrastructures d’IA à la pointe de la technologie.
NVIDIA Jetson Orin offre des capacités de calcul IA sans précédent, une grande mémoire unifiée et des piles logicielles complètes, le tout avec une efficacité énergétique sans précédent afin de tirer parti des applications d'IA générative les plus récentes. Son architecture de transformation permet une inférence rapide de n'importe quel modèle d'IA générative pour des performances de pointe à l'Edge sur le benchmark MLPerf.
En savoir plus sur nos performances d'entrainement et d'inférence de Data Center.