Die MLPerf™-Benchmarks – entwickelt von MLCommons, einem Konsortium von führenden Akteuren im KI-Bereich aus Wissenschaft, Forschungslaboren und der Wirtschaft – sollen dazu dienen, unvoreingenommene Bewertungen von Trainings- und Inferenzleistung für Hardware, Software und Services vorzunehmen. Sie werden alle unter festgelegten Bedingungen durchgeführt. Um bei den Branchentrends nicht ins Hintertreffen zu geraten, entwickelt sich MLPerf ständig weiter, führt regelmäßig neue Tests durch und fügt neue Workloads hinzu, die dem neuesten Stand der KI entsprechen.
MLPerf Inference v5.1 misst die Inferenzleistung mit 10 verschiedenen KI-Modellen, einschließlich einer Vielzahl großer Sprachmodelle (LLMs), eines logischen LLM, generativer Text-zu-Bild-KI, Empfehlung, Text-zu-Sprache und eines neuronalen Graph-Netzwerks (GNN).
MLPerf Training v5.1 misst die Zeit für das Training von sieben verschiedenen Modellen, die die folgenden Anwendungsfälle abdecken: LLMs (Pretraining und Feinabstimmung), Bildgenerierung, GNN, Objekterkennung und Empfehlung.
Die NVIDIA-Plattform erzielte die schnellste Trainingszeit bei allen sieben MLPerf Training v5.1-Benchmarks. Blackwell Ultra gab sein Debüt und bot große Fortschritte für das Pre-Training und die Feinabstimmung großer Sprachmodelle. Möglich wurden diese durch architektonische Verbesserungen und bahnbrechende NVFP4-Trainingsmethoden, die die Leistung steigern und strenge MLPerf-Genauigkeitsanforderungen erfüllen. NVIDIA hat außerdem die Blackwell Llama 3.1 405B Pre-Training-Leistung in großem Maßstab um das 2,7-Fache gesteigert. Dies geschah durch eine Kombination aus doppelter Skalierung und starker Leistungssteigerungen pro GPU, die durch NVFP4 ermöglicht wurden. NVIDIA stellte außerdem Leistungsrekorde bei beiden neu hinzugefügten Benchmarks – Llama 3.1 8B und FLUX.1 – auf und hält weiterhin Leistungsrekorde bei bestehenden Benchmarks für Empfehler, Objekterkennung und neuronale Graph-Netzwerke.
Ergebnisse vom MLPerf™ Training v5.0 und v5.1 wurden am 12. November 2025 von www.mlcommons.org aus den folgenden Einträgen abgerufen: 4.1-0050, 5.0-0014, 5.0-0067, 5.0-0076, 5.1-0058, 5.1-0060. Der Name MLPerf™ und das Logo sind Marken der MLCommons Association in den USA und anderen Ländern. Alle Rechte vorbehalten. Die nicht autorisierte Verwendung ist strengstens untersagt. Weitere Informationen finden Sie unter www.mlcommons.org.
Die NVIDIA-Plattform ermöglichte bei jedem MLPerf Training v5.1 Benchmark die schnellsten Trainingszeiten. Innovationen in den Bereichen Chips, Systeme und Software ermöglichten eine nachhaltige Führungsrolle bei der Trainingsleistung, wie branchenweit anerkannte und von Experten geprüfte Leistungsdaten zeigen.
| Benchmark | Time to Train |
|---|---|
| LLM Pretraining (Llama 3.1 405B) | 10 minutes |
| LLM Pretraining (Llama 3.1 8B) | 5.2 minutes |
| LLM Fine-Tuning (Llama 2 70B LoRA) | 0.40 minutes |
| Image Generation (FLUX.1) | 12.5 minutes |
| Recommender (DLRM-DCNv2) | 0.71 minutes |
| Graph Neural Network (R-GAT) | 0.84 minutes |
| Object Detection (RetinaNet) | 1.4 minutes |
Ergebnisse von MLPerf™ Training v5.0 und v5.1 wurden am 12. November 2025 von www.mlcommons.org aus den folgenden Einträgen abgerufen: 5.0-0082, 5.1-0002, 5.1-0004, 5.1-0060, 5.1-0070, 5.1-0072. Der Name MLPerf™ und das Logo sind Marken der MLCommons Association in den USA und anderen Ländern. Alle Rechte vorbehalten. Die nicht autorisierte Verwendung ist strengstens untersagt. Weitere Informationen finden Sie unter www.mlcommons.org.
Die NVIDIA-Plattform hat in MLPerf Inference v5.1 viele neue Rekorde aufgestellt, einschließlich des herausfordernden neuen DeepSeek-R1 Reasoning und Llama 3.1 405B Interactive-Tests, und hält weiterhin jeden Leistungsrekord für MLPerf Inference pro GPU in der Kategorie Datacenter. Das GB300 NVL72 Rack-Scale-System, das auf der NVIDIA Blackwell Ultra GPU-Architektur basiert, feierte nur sechs Monate nach NVIDIA Blackwell sein Debüt und stellte neue Rekorde beim DeepSeek-R1 Reasoning Inferenz Benchmark auf. NVIDIA Dynamo gab in dieser Runde auch sein Debüt und konnte mit seinem disaggregierten Serving die Leistung jeder Blackwell-GPU auf Llama 3.1 405B Interactive erheblich steigern. Die Leistung und das Innovationstempo der NVIDIA-Plattform ermöglichen höhere Intelligenz, ein größeres Umsatzpotenzial für KI-Fabriken und niedrigere Kosten pro Million Token.
| Benchmark | Offline | Server | Interactive |
|---|---|---|---|
| DeepSeek-R1 | 5,842 Tokens/Second | 2,907 Tokens/Second | * |
| Llama 3.1 405B | 224 Tokens/Second | 170 Tokens/Second | 138 Tokens/Second |
| Llama 2 70B 99.9% | 12,934 Tokens/Second | 12,701 Tokens/Second | 7,856 Tokens/Second |
| Llama 3.1 8B | 18,370 Tokens/Second | 16,099 Tokens/Second | 15,284 Tokens/Second |
| Mistral 8x7B | 16,099 Tokens/Second | 16,131 Tokens/Second | * |
| Stable Diffusion XL | 4.07 Samples/Second | 3.59 Queries/Second | * |
| DLRMv2 99% | 87,228 Tokens/Second | 80,515 Tokens/Second | * |
| DLRMv2 99.9% | 48,666 Tokens/Second | 46,259 Tokens/Second | * |
| RetinaNet | 1,875 samples/second/GPU | 1,801 queries/second/GPU | * |
| Whisper | 5,667 Tokens/Second | * | * |
| Graph Neural Network | 81,404 Tokens/Second | * | * |
* Szenarien, die nicht Teil der MLPerf Inference v5.0 oder v5.1 Benchmark-Suites sind.
MLPerf Inference v5.0 und v5.1, Closed Division. Ergebnisse abgerufen auf www.mlcommons.org am 9. September 2025. Die Ergebnisse der NVIDIA-Plattform basieren auf den folgenden Einträgen: 5.0-0072, 5.1-0007, 5.1-0053, 5.1-0079, 5.1-0028, 5.1-0062, 5.1-0086, 5.1-0073, 5.1-0008, 5.1-0070,5.1-0046, 5.1-0009, 5.1-0060, 5.1-0072. 5.1-0071, 5.1-0069 Die Leistung pro Chip wurde ermittelt, indem der Gesamtdurchsatz durch die Anzahl der gemeldeten Chips geteilt wurde. Die Leistung pro Chip ist keine primäre Metrik von MLPerf Inference v5.0 oder v5.1. Der Name MLPerf und das Logo sind eingetragene und nicht eingetragene Marken der MLCommons Association in den USA und anderen Ländern. Alle Rechte vorbehalten. Die nicht autorisierte Verwendung ist strengstens untersagt. Weitere Informationen finden Sie unter http://www.mlcommons.org.
Die Komplexität der KI erfordert eine enge Integration aller Aspekte der Plattform. Wie die Benchmarks von MLPerf zeigen, liefert die KI-Plattform von NVIDIA erstklassige Leistung mit dem weltweit fortschrittlichsten Grafikprozessor, leistungsfähigen und skalierbaren Verbindungstechnologien sowie modernster Software – eine durchgehende Lösung, die im Rechenzentrum, in der Cloud oder in der Peripherie mit beeindruckenden Ergebnissen eingesetzt werden kann.
Als wesentlicher Bestandteil der NVIDIA-Plattform und der MLPerf-Trainings- sowie Inferenzergebnisse ist der NGC™-Katalog ein Knotenpunkt für GPU-optimierte KI-, HPC- und Datenanalysesoftware, die End-to-End-Workflows vereinfacht und beschleunigt. Mit über 150 Containern auf Unternehmensniveau – einschließlich Workloads für generative KI, Gesprächs-KI und Empfehlungssysteme, Hunderten von KI-Modellen sowie branchenspezifischen SDKs, die vor Ort, in der Cloud oder am Edge bereitgestellt werden können – ermöglicht NGC Datenwissenschaftlern, Forschern und Entwicklern, erstklassige Lösungen zu erstellen, Erkenntnisse zu erlangen und schneller als je zuvor Geschäftswerte zu erzielen.
Um weltweit führende Ergebnisse bei Training und Inferenz zu erzielen, bedarf es einer Infrastruktur, die speziell für die komplexesten KI-Herausforderungen der Welt entwickelt wurde. Die NVIDIA KI-Plattform lieferte führende Leistung, die von den NVIDIA Blackwell- und Blackwell Ultra-Plattformen unterstützt wurde, einschließlich der NVIDIA GB300 NVL72 und GB200 NVL72 Systeme, NVLink und NVLink Switch sowie Quantum InfiniBand. Diese stehen im Mittelpunkt von KI-Fabriken, die von der NVIDIA-Rechenzentrumsplattform unterstützt werden, der Engine hinter unserer Benchmark-Leistung.
Darüber hinaus liefern NVIDIA DGX™-Systeme die Skalierbarkeit, schnelle Bereitstellung und unglaubliche Rechenleistung, die jedem Unternehmen die Möglichkeit bieten, eine KI-Infrastruktur der Spitzenklasse aufzubauen.
NVIDIA Jetson Orin bietet beispiellose KI-Rechenleistung, einen großen vereinheitlichten Arbeitsspeicher und umfassende Software-Stacks, die eine überlegene Energieeffizienz für die neuesten generativen KI-Anwendungen liefern. Es ist in der Lage, schnelle Inferenzen für alle generativen KI-Modelle zu führen, die von der Transformer-Architektur unterstützt werden, und bietet auf MLPerf eine überragende Edge-Performance.
Erfahren Sie mehr über die Leistung unseres Rechenzentrums bei Training und Inferenz.