MLPerf-Benchmarks

Die NVIDIA AI-Plattform erreicht erstklassige Leistung und Vielseitigkeit bei MLPerf Trainings-, Inferenz- und HPC-Benchmarks für die anspruchsvollsten, realen KI-Workloads.

Was ist MLPerf?

Die MLPerf™-Benchmarks – entwickelt von MLCommons, einem Konsortium von führenden Akteuren im KI-Bereich aus Wissenschaft, Forschungslaboren und der Wirtschaft – sollen dazu dienen, unvoreingenommene Bewertungen von Trainings- und Inferenzleistung für Hardware, Software und Services vorzunehmen. Sie werden alle unter festgelegten Bedingungen durchgeführt. Um bei den Branchentrends nicht ins Hintertreffen zu geraten, entwickelt sich MLPerf ständig weiter, führt regelmäßig neue Tests durch und fügt neue Workloads hinzu, die dem neuesten Stand der KI entsprechen.

Innerhalb der MLPerf-Benchmarks

MLPerf Inference v5.1 misst die Inferenzleistung mit 10 verschiedenen KI-Modellen, einschließlich einer Vielzahl großer Sprachmodelle (LLMs), eines logischen LLM, generativer Text-zu-Bild-KI, Empfehlung, Text-zu-Sprache und eines neuronalen Graph-Netzwerks (GNN).

MLPerf Training v5.1 misst die Zeit für das Training von sieben verschiedenen Modellen, die die folgenden Anwendungsfälle abdecken: LLMs (Pretraining und Feinabstimmung), Bildgenerierung, GNN, Objekterkennung und Empfehlung.

Logisches großes Sprachmodell

Großes Sprachmodell, das Token für Zwischenüberlegungen oder Denken generiert, um die Genauigkeit von Antworten zu verbessern.

Details

Große Sprachmodelle

Deep-Learning-Algorithmen, die mit umfangreichen Datensätzen trainiert wurden und in der Lage sind, Inhalte für eine Vielzahl von Anwendungsfällen zu erkennen, zusammenzufassen, zu übersetzen, vorherzusagen und zu generieren.

Details

Text-to-Image

Generiert Bilder aus Prompts.

Details

Empfehlung

Bietet personalisierte Ergebnisse in Diensten für Benutzer wie Social-Media- oder E-Commerce-Websites, indem Interaktionen zwischen Nutzern und Serviceartikeln wie beispielsweise Produkte oder Anzeigen analysiert werden.

Details

Objekterkennung (leicht)

Sucht nach Instanzen von Objekten aus der realen Welt, wie Gesichtern, Fahrrädern und Gebäuden in Bildern oder Videos, und gibt jeweils einen Begrenzungsrahmen an.

Details

Neuronales Netzwerk für Graphen

Verwendet neuronale Netze, die für die Arbeit mit als Graphen strukturierten Daten entwickelt wurden.

Details

Sprache-zu-Text

Wandelt gesprochene Sprache in geschriebenen Text um.

Details

NVIDIA MLPerf-Benchmark-Ergebnisse

Die NVIDIA-Plattform erzielte die schnellste Trainingszeit bei allen sieben MLPerf Training v5.1-Benchmarks. Blackwell Ultra gab sein Debüt und bot große Fortschritte für das Pre-Training und die Feinabstimmung großer Sprachmodelle. Möglich wurden diese durch architektonische Verbesserungen und bahnbrechende NVFP4-Trainingsmethoden, die die Leistung steigern und strenge MLPerf-Genauigkeitsanforderungen erfüllen. NVIDIA hat außerdem die Blackwell Llama 3.1 405B Pre-Training-Leistung in großem Maßstab um das 2,7-Fache gesteigert. Dies geschah durch eine Kombination aus doppelter Skalierung und starker Leistungssteigerungen pro GPU, die durch NVFP4 ermöglicht wurden. NVIDIA stellte außerdem Leistungsrekorde bei beiden neu hinzugefügten Benchmarks – Llama 3.1 8B und FLUX.1 – auf und hält weiterhin Leistungsrekorde bei bestehenden Benchmarks für Empfehler, Objekterkennung und neuronale Graph-Netzwerke.

NVIDIA Blackwell Ultra liefert einen großen Sprung beim Debüt von MLPerf-Training.

Ergebnisse vom MLPerf™ Training v5.0 und v5.1 wurden am 12. November 2025 von www.mlcommons.org aus den folgenden Einträgen abgerufen: 4.1-0050, 5.0-0014, 5.0-0067, 5.0-0076, 5.1-0058, 5.1-0060. Der Name MLPerf™ und das Logo sind Marken der MLCommons Association in den USA und anderen Ländern. Alle Rechte vorbehalten. Die nicht autorisierte Verwendung ist strengstens untersagt. Weitere Informationen finden Sie unter www.mlcommons.org.

Jährlicher Rhythmus und Extreme Co-Design für nachhaltige Führungsrolle im Training

Die NVIDIA-Plattform ermöglichte bei jedem MLPerf Training v5.1 Benchmark die schnellsten Trainingszeiten. Innovationen in den Bereichen Chips, Systeme und Software ermöglichten eine nachhaltige Führungsrolle bei der Trainingsleistung, wie branchenweit anerkannte und von Experten geprüfte Leistungsdaten zeigen.

Leistung in maximaler Größe

Benchmark Time to Train
LLM Pretraining (Llama 3.1 405B) 10 minutes
LLM Pretraining (Llama 3.1 8B) 5.2 minutes
LLM Fine-Tuning (Llama 2 70B LoRA) 0.40 minutes
Image Generation (FLUX.1) 12.5 minutes
Recommender (DLRM-DCNv2) 0.71 minutes
Graph Neural Network (R-GAT) 0.84 minutes
Object Detection (RetinaNet) 1.4 minutes

Ergebnisse von MLPerf™ Training v5.0 und v5.1 wurden am 12. November 2025 von www.mlcommons.org aus den folgenden Einträgen abgerufen: 5.0-0082, 5.1-0002, 5.1-0004, 5.1-0060, 5.1-0070, 5.1-0072. Der Name MLPerf™ und das Logo sind Marken der MLCommons Association in den USA und anderen Ländern. Alle Rechte vorbehalten. Die nicht autorisierte Verwendung ist strengstens untersagt. Weitere Informationen finden Sie unter www.mlcommons.org.

Blackwell Ultra stellt neue Rekorde im Bereich der logischen Schlussfolgerungen in MLPerf Inference v5.1 auf

Die NVIDIA-Plattform hat in MLPerf Inference v5.1 viele neue Rekorde aufgestellt, einschließlich des herausfordernden neuen DeepSeek-R1 Reasoning und Llama 3.1 405B Interactive-Tests, und hält weiterhin jeden Leistungsrekord für MLPerf Inference pro GPU in der Kategorie Datacenter. Das GB300 NVL72 Rack-Scale-System, das auf der NVIDIA Blackwell Ultra GPU-Architektur basiert, feierte nur sechs Monate nach NVIDIA Blackwell sein Debüt und stellte neue Rekorde beim DeepSeek-R1 Reasoning Inferenz Benchmark auf. NVIDIA Dynamo gab in dieser Runde auch sein Debüt und konnte mit seinem disaggregierten Serving die Leistung jeder Blackwell-GPU auf Llama 3.1 405B Interactive erheblich steigern. Die Leistung und das Innovationstempo der NVIDIA-Plattform ermöglichen höhere Intelligenz, ein größeres Umsatzpotenzial für KI-Fabriken und niedrigere Kosten pro Million Token.

Die NVIDIA-Plattform hält jeden Datacenter-Rekord pro GPU in MLPerf Inference

Benchmark Offline Server Interactive
DeepSeek-R1 5,842 Tokens/Second 2,907 Tokens/Second *
Llama 3.1 405B 224 Tokens/Second 170 Tokens/Second 138 Tokens/Second
Llama 2 70B 99.9% 12,934 Tokens/Second 12,701 Tokens/Second 7,856 Tokens/Second
Llama 3.1 8B 18,370 Tokens/Second 16,099 Tokens/Second 15,284 Tokens/Second
Mistral 8x7B 16,099 Tokens/Second 16,131 Tokens/Second *
Stable Diffusion XL 4.07 Samples/Second 3.59 Queries/Second *
DLRMv2 99% 87,228 Tokens/Second 80,515 Tokens/Second *
DLRMv2 99.9% 48,666 Tokens/Second 46,259 Tokens/Second *
RetinaNet 1,875 samples/second/GPU 1,801 queries/second/GPU *
Whisper 5,667 Tokens/Second * *
Graph Neural Network 81,404 Tokens/Second * *

* Szenarien, die nicht Teil der MLPerf Inference v5.0 oder v5.1 Benchmark-Suites sind.

MLPerf Inference v5.0 und v5.1, Closed Division. Ergebnisse abgerufen auf www.mlcommons.org am 9. September 2025. Die Ergebnisse der NVIDIA-Plattform basieren auf den folgenden Einträgen: 5.0-0072, 5.1-0007, 5.1-0053, 5.1-0079, 5.1-0028, 5.1-0062, 5.1-0086, 5.1-0073, 5.1-0008, 5.1-0070,5.1-0046, 5.1-0009, 5.1-0060, 5.1-0072. 5.1-0071, 5.1-0069 Die Leistung pro Chip wurde ermittelt, indem der Gesamtdurchsatz durch die Anzahl der gemeldeten Chips geteilt wurde. Die Leistung pro Chip ist keine primäre Metrik von MLPerf Inference v5.0 oder v5.1. Der Name MLPerf und das Logo sind eingetragene und nicht eingetragene Marken der MLCommons Association in den USA und anderen Ländern. Alle Rechte vorbehalten. Die nicht autorisierte Verwendung ist strengstens untersagt. Weitere Informationen finden Sie unter http://www.mlcommons.org.

Die Technologie hinter den Ergebnissen

Die Komplexität der KI erfordert eine enge Integration aller Aspekte der Plattform. Wie die Benchmarks von MLPerf zeigen, liefert die KI-Plattform von NVIDIA erstklassige Leistung mit dem weltweit fortschrittlichsten Grafikprozessor, leistungsfähigen und skalierbaren Verbindungstechnologien sowie modernster Software – eine durchgehende Lösung, die im Rechenzentrum, in der Cloud oder in der Peripherie mit beeindruckenden Ergebnissen eingesetzt werden kann.

Optimierte Software zur Beschleunigung von KI-Workflows

Als wesentlicher Bestandteil der NVIDIA-Plattform und der MLPerf-Trainings- sowie Inferenzergebnisse ist der NGC™-Katalog ein Knotenpunkt für GPU-optimierte KI-, HPC- und Datenanalysesoftware, die End-to-End-Workflows vereinfacht und beschleunigt. Mit über 150 Containern auf Unternehmensniveau – einschließlich Workloads für generative KI, Gesprächs-KI und Empfehlungssysteme, Hunderten von KI-Modellen sowie branchenspezifischen SDKs, die vor Ort, in der Cloud oder am Edge bereitgestellt werden können – ermöglicht NGC Datenwissenschaftlern, Forschern und Entwicklern, erstklassige Lösungen zu erstellen, Erkenntnisse zu erlangen und schneller als je zuvor Geschäftswerte zu erzielen.

Erstklassige KI-Infrastruktur

Um weltweit führende Ergebnisse bei Training und Inferenz zu erzielen, bedarf es einer Infrastruktur, die speziell für die komplexesten KI-Herausforderungen der Welt entwickelt wurde. Die NVIDIA KI-Plattform lieferte führende Leistung, die von den NVIDIA Blackwell- und Blackwell Ultra-Plattformen unterstützt wurde, einschließlich der NVIDIA GB300 NVL72 und GB200 NVL72 Systeme, NVLink und NVLink Switch sowie Quantum InfiniBand. Diese stehen im Mittelpunkt von KI-Fabriken, die von der NVIDIA-Rechenzentrumsplattform unterstützt werden, der Engine hinter unserer Benchmark-Leistung.

Darüber hinaus liefern NVIDIA DGX™-Systeme die Skalierbarkeit, schnelle Bereitstellung und unglaubliche Rechenleistung, die jedem Unternehmen die Möglichkeit bieten, eine KI-Infrastruktur der Spitzenklasse aufzubauen. 

Erschließung generativer KI am Edge mit transformativer Leistung

NVIDIA Jetson Orin bietet beispiellose KI-Rechenleistung, einen großen vereinheitlichten Arbeitsspeicher und umfassende Software-Stacks, die eine überlegene Energieeffizienz für die neuesten generativen KI-Anwendungen liefern. Es ist in der Lage, schnelle Inferenzen für alle generativen KI-Modelle zu führen, die von der Transformer-Architektur unterstützt werden, und bietet auf MLPerf eine überragende Edge-Performance.

Erfahren Sie mehr über die Leistung unseres Rechenzentrums bei Training und Inferenz.

Große Sprachmodelle

MLPerf Training verwendet das generative Sprachmodell Llama 3.1 mit 405 Milliarden Parametern und einer Sequenzlänge von 8.192 für den LLM-pretraining-Workload mit dem c4 (v3.0.1)-Datensatz. Für den LLM-Feinabstimmungstest verwendet es das Llama 2 70B Modell mit dem GovReport-Datensatz mit Sequenzlängen von 8.192. Llama 3.1 8B verwendet auch den C4-Datensatz mit Sequenzlängen von 8.192.

MLPerf Inference verwendet das Llama 3.1 405B Modell mit den folgenden Datensätzen: LongBench, RULER und GovReport-Zusammenfassung; Llama 2 70B-Modell mit dem OpenORCA-Datensatz; das Mixtral 8x7B-Modell mit den OpenORCA-, GSM8K- und MBXP-Datensätzen; und das Llama 3.1 8B-Modell mit dem CNN DailyMail Datensatz.

Text-to-Image

MLPerf Training verwendet das FLUX.1-Text-zu-Bild-Modell, das auf dem CC12M-Datensatz mit dem COCO-2014-Datensatz trainiert wurde, für die Evaluierung.

MLPerf Inference verwendet das Stable Diffusion XL (SDXL) Text-zu-Bild-Modell mit einer Teilmenge von 5.000 Prompts aus dem coco-val-2014-Datensatz. 

Empfehlung

MLPerf Training und Inference verwenden das Deep Learning Recommendation Model v2 (DLRMv2), welches das DCNv2-Cross-Layer und einen aus dem Criteo-Datensatz synthetisierten Multi-Hot-Datensatz anwendet.

Objekterkennung (leicht)

MLPerf Training verwendet Single-Shot Detector (SSD) mit ResNeXt50 Backbone auf einer Teilmenge des Google OpenImages-Datasets.

Reasoning LLM

MLPerf Inference verwendet das DeepSeek-R1-Modell mit Samples, die aus den folgenden Datensätzen stammen: AIME, MATH500, GPQA-Diamond, MMLU-Pro, LiveCodeBench.

Verarbeitung natürlicher Sprache (NLP)

MLPerf Training verwendet bidirektionale Encoder-Darstellungen von Transformatoren (BERT) für den 2020/01/01-Datensatz von Wikipedia.

Neuronales Netzwerk für Graphen

MLPerf Training verwendet R-GAT mit dem Illinois Graph Benchmark (IGB) – Heterogener Datensatz.

Sprache-zu-Text

MLPerf Inference verwendet Whisper-Large-V3 mit dem LibriSpeech-Datensatz.

Server

4x

Offline

3,7x

KI Superchip

208 B Transistoren

2. Generation Transformer-Engine

FP4/FP6 Tensor Core

5. Generation NVLINK

Skalierbar auf 576 GPUs

RAS-Engine

100 % In-System-Selbsttest

Sichere KI

Leistungsstarke Verschlüsselung und TEE

Dekompressions-Engine

800 GB/s