MLPerf-Benchmarks

Die NVIDIA AI-Plattform erreicht erstklassige Leistung und Vielseitigkeit bei MLPerf Trainings-, Inferenz- und HPC-Benchmarks für die anspruchsvollsten, realen KI-Workloads.

Was ist MLPerf?

Die MLPerf™-Benchmarks – entwickelt von MLCommons, einem Konsortium von führenden Akteuren im KI-Bereich aus Wissenschaft, Forschungslaboren und der Wirtschaft – sollen dazu dienen, unvoreingenommene Bewertungen von Trainings- und Inferenzleistung für Hardware, Software und Services vorzunehmen. Sie werden alle unter festgelegten Bedingungen durchgeführt. Um bei den Branchentrends nicht ins Hintertreffen zu geraten, entwickelt sich MLPerf ständig weiter, führt regelmäßig neue Tests durch und fügt neue Workloads hinzu, die dem neuesten Stand der KI entsprechen.

Innerhalb der MLPerf-Benchmarks

MLPerf Inference v4.1 misst die Inferenzleistung auf neun verschiedenen Benchmarks, darunter mehrere große Sprachmodelle (LLMs), Text-zu-Bild, Verarbeitung natürlicher Sprache, Empfehlungen, Computer Vision und Segmentierung medizinischer Bilder.

MLPerf Training v4.1 misst die Zeit für das Trainieren auf sieben verschiedenen Benchmarks, darunter LLM-Vortraining, LLM-Feinabstimmung, Text-zu-Bild, neuronales Graphen-Netzwerk (Graph Neural Network, GNN), Computer Vision, Empfehlung und Verarbeitung natürlicher Sprache.

MLPerf HPC v3.0 misst die Trainingsleistung in vier verschiedenen wissenschaftlichen Computing-Anwendungsfällen, einschließlich der Identifizierung von klimatisch-atmosphärischen Flüssen, der Vorhersage kosmologischer Parameter, der quantenmolekularen Modellierung und der Proteinstrukturvorhersage. 

Große Sprachmodelle

Deep-Learning-Algorithmen, die mit umfangreichen Datensätzen trainiert wurden und in der Lage sind, Inhalte für eine Vielzahl von Anwendungsfällen zu erkennen, zusammenzufassen, zu übersetzen, vorherzusagen und zu generieren.
Details.

Text-to-Image

Erzeugt Bilder aus Text-Prompts.
Details.

Empfehlung

Bietet personalisierte Ergebnisse in Diensten für Benutzer wie Social-Media- oder E-Commerce-Websites, indem Interaktionen zwischen Nutzern und Serviceartikeln wie beispielsweise Produkte oder Anzeigen analysiert werden.
Details.

Objekterkennung (leicht)

Sucht nach Instanzen von Objekten aus der realen Welt, wie Gesichtern, Fahrrädern und Gebäuden in Bildern oder Videos, und gibt jeweils einen Begrenzungsrahmen an.
Details.

Neuronales Netzwerk für Graphen

Verwendet neuronale Netze, die für die Arbeit mit als Graphen strukturierten Daten entwickelt wurden.
Details.

Bildklassifikation

Weist einem Eingabebild ein Label aus einem festgelegten Satz von Kategorien zu, beispielsweise bei Computer-Vision-Problemen.
Details.

Verarbeitung natürlicher Sprache (NLP)

Versteht Text, indem die Beziehung zwischen verschiedenen Wörtern in einem Textblock verwendet wird. Ermöglicht die Beantwortung von Fragen, die Satzparaphrasierung und viele andere sprachbezogene Anwendungsfälle.
Details.

Biomedizinische Bildsegmentierung

Führt die volumetrische Segmentierung dichter 3D-Bilder für medizinische Anwendungsfälle durch.
Details.

Identifikation klimatisch-atmosphärischer Flüsse

Identifiziert Hurrikane und atmosphärische Flüsse in Klimasimulationsdaten.
Details.

Vorhersage kosmologischer Parameter

Löst ein 3D-Bildregressionsproblem auf kosmologischen Daten.
Details.

Quantenmolekulare Modellierung

Vorhersage von Energien oder molekularen Konfigurationen.
Details.

Proteinstrukturvorhersage

Prognostiziert die dreidimensionale Proteinstruktur basierend auf der eindimensionalen Aminosäurekonnektivität.
Details.

NVIDIA MLPerf-Benchmark-Ergebnisse

Die NVIDIA HGX™ B200-Plattform, mit der Leistung von NVIDIA Blackwell GPUs, NVLink™ der fünften Generation und dem neuesten NVLink-Switch, hat in MLPerf Training v4.1 einen weiteren großen Sprung für das LLM-Training erzielt. Durch unermüdliches Full-Stack-Engineering im Rechenzentrumsmaßstab verschiebt NVIDIA weiterhin die Grenzen der generativen KI-Trainingsleistung und beschleunigt die Erstellung und Anpassung immer leistungsfähigerer KI-Modelle.

NVIDIA Blackwell bringt das LLM-Training auf ein neues Level

Ergebnisse von MLPerf™ Training v4.1 von http://www.mlcommons.org am 13. November 2024 aus den folgenden Einträgen: 4.1-0060 (HGX H100, 2024, 512 GPUs) in der Kategorie „Verfügbar“, 4.1-0082 (HGX B200, 2024, 64 GPUs) in der Kategorie „Vorschau“. Ergebnisse von MLPerf™ Training v3.0, verwendet für HGX H100 (2023, 512 GPUs), abgerufen aus Eintrag 3.0-2069. Ergebnis von HGX A100 mit 512 GPUs, nicht von der MLCommons Association verifiziert. Die normalisierte Leistung pro GPU ist keine primäre Metrik von MLPerf™ Training.  Der Name MLPerf™ und das Logo sind Marken der MLCommons Association in den USA und anderen Ländern. Alle Rechte vorbehalten. Die nicht autorisierte Verwendung ist strengstens untersagt. Weitere Informationen finden Sie unter http://www.mlcommons.org.

NVIDIA liefert weiterhin die höchste Leistung in großem Maßstab

Die NVIDIA-Plattform, die von NVIDIA Hopper™-GPUs, NVLink der vierten Generation mit NVSwitch™ der dritten Generation und Quantum-2 InfiniBand unterstützt wird, zeigte in MLPerf Training v4.1 erneut unübertroffene Leistung und Vielseitigkeit. NVIDIA lieferte in allen sieben Benchmarks die höchste Leistung in großem Maßstab.

Leistung in maximaler Größe

Benchmark Time to Train Number of GPUs
LLM (GPT-3 175B) 3.4 minutes 11,616
LLM Fine-Tuning (Llama 2 70B-LoRA) 1.2 minutes 1,024
Text-to-Image (Stable Diffusion v2) 1.4 minutes 1,024
Graph Neural Network (R-GAT) 0.9 minutes 512
Recommender (DLRM-DCNv2) 1.0 minutes 128
Natural Language Processing (BERT) 0.1 minutes 3,472
Object Detection (RetinaNet) 0.8 minutes 2,528

Ergebnisse MLPerf™ Training v4.1, wurden am 13. November 2024 von https://mlcommons.org aus den folgenden Einträgen abgerufen: 4.1-0012, 4.1-0054, 4.1-0053, 4.1-0059, 4.1-0055, 4.10058,  4.1-0056. Der Name MLPerf™ und das Logo sind Marken der MLCommons Association in den USA und anderen Ländern. Alle Rechte vorbehalten. Die nicht autorisierte Verwendung ist strengstens untersagt. Weitere Informationen finden Sie unter https://mlcommons.org.

Bei ihrem Debüt mit MLPerf Inference lieferte die NVIDIA Blackwell-Plattform mit dem NVIDIA Quasar Quantization System eine bis zu 4-mal höhere LLM-Leistung im Vergleich zur H100 Tensor Core GPU der vorherigen Generation. Unter den verfügbaren Lösungen lieferte der NVIDIA H200 Tensor Core GPU, der auf der NVIDIA Hopper-Architektur basiert, die höchste Leistung pro GPU für generative KI, einschließlich aller drei LLM-Benchmarks, darunter Llama 2 70B, GPT-J und der neu hinzugefügte Mixture-of-Experts LLM, Mixtral 8x7B sowie der Text-to-Image-Benchmark Stable Diffusion XL. Durch die unermüdliche Softwareoptimierung stieg die Leistung des H200 in weniger als sechs Monaten um bis zu 27 Prozent. Für generative KI am Edge lieferte NVIDIA Jetson Orin™ hervorragende Ergebnisse, mit einer Steigerung des GPT-J-Durchsatzes um mehr als das 6-fache und einer Reduzierung der Latenz um das 2,4-fache in nur einem Durchgang.

NVIDIA Blackwell ermöglicht einen großen Sprung für LLM Inference

Server

4x

Offline

3,7x

KI Superchip

208 B Transistoren

2. Generation Transformer-Engine

FP4/FP6 Tensor Core

5. Generation NVLINK

Skalierbar auf 576 GPUs

RAS-Engine

100 % In-System-Selbsttest

Sichere KI

Leistungsstarke Verschlüsselung und TEE

Dekompressions-Engine

800 GB/s


MLPerf Inference v4.1 Closed, Data Center. Ergebnisse abgerufen von www.mlperf.org am 28. August 2024. Blackwell-Ergebnisse gemessen auf einer einzelnen GPU und abgerufen von Eintrag 4.1-0074 in der Kategorie Closed, Vorschau. H100-Ergebnisse von Eintrag 4.1-0043 in der Kategorie Closed, Verfügbar auf einem 8x H100-System und geteilt durch die Anzahl der GPUs für den Vergleich pro GPU. Der Durchsatz pro GPU ist keine primäre Metrik von MLPerf Inference. Der Name MLPerf und das Logo sind eingetragene und nicht eingetragene Marken der MLCommons Association in den USA und anderen Ländern. Alle Rechte vorbehalten. Die nicht autorisierte Verwendung ist strengstens untersagt. Weitere Informationen finden Sie unter https://mlcommons.org.

H200 liefert außergewöhnlichen Multi-GPU-Inferenzdurchsatz bei jedem Benchmark

Benchmark Offline Server
Llama 2 70B 34,864 tokens/second 32,790 tokens/second
Mixtral 8x7B 59,022 tokens/second 57,177 tokens/second
GPT-J 20,086 tokens/second 19,243 tokens/second
Stable Diffusion XL 17.42 samples/second 16.78 queries/second
DLRMv2 99% 637,342 samples/second 585,202 queries/second
DLRMv2 99.9% 390,953 samples/second 370,083 queries/second
BERT 99% 73,310 samples/second 57,609 queries/second
BERT 99.9% 63,950 samples/second 51,212 queries/second
RetinaNet 14,439 samples/second 13,604 queries/second
ResNet-50 v1.5 756,960 samples/second 632,229 queries/second
3D U-Net 54.71 samples/second Not part of benchmark



MLPerf Inference v4.1 Closed, Data Center. Ergebnisse abgerufen von www.mlperf.org am 28. August 2024. Alle Ergebnisse mit acht GPUs und aus den folgenden Einträgen abgerufen: 4.1-0046, 4.1-0048, 4.1-0050. Der Name MLPerf und das Logo sind eingetragene und nicht eingetragene Marken der MLCommons Association in den USA und anderen Ländern. Alle Rechte vorbehalten. Die nicht autorisierte Verwendung ist strengstens untersagt. Weitere Informationen finden Sie unter https://mlcommons.org.

Der NVIDIA H100 Tensor Core hat die NVIDIA-Plattform für HPC und KI bei seinem Debüt in MLPerf HPC v3.0 mit einer bis zu 16-fachen Beschleunigung der Trainingszeit in nur drei Jahren und der höchsten Leistung bei allen Workloads sowohl in Bezug auf die Trainingszeit als auch auf die Durchsatzmetrik optimiert. Die NVIDIA-Plattform war auch die einzige, die Ergebnisse für jede MLPerf HPC-Workload vorlegte, die die Bereiche Klimasegmentierung, Vorhersage kosmologischer Parameter, quantenmolekulare Modellierung und die neueste Ergänzung, Proteinstrukturvorhersage, umfassen. Die unübertroffene Leistung und Vielseitigkeit der NVIDIA-Plattform macht sie zum Instrument der Wahl, um die nächste Welle KI-gestützter wissenschaftlicher Entdeckungen voranzutreiben.

Bis zu 16-mal mehr Leistung in drei Jahren

NVIDIA Full-Stack-Innovation fördert Leistungssteigerungen

Ergebnisse von MLPerf™ HPC v3.0, abgerufen von https://mlcommons.org am 8. November 2023. Ergebnisse abgerufen von Einträgen 0.7-406, 0.7-407, 1.0-1115, 1.0-1120, 1.0-1122,  2.0-8005, 2.0-8006 , 3.0-8006, 3.0-8007, 3.0-8008. CosmoFlow-Score in v1.0 ist auf neue RCPs normalisiert, die in MLPerf HPC v2.0 eingeführt wurden Ergebnisse für v0.7, v1.0 und v2.0 sind angepasst, um die Data-Staging-Zeit aus dem Benchmark zu entfernen. Dies entspricht den neuen Regeln, die für v3.0 angenommen wurden, um faire Vergleiche zwischen den Einreichungsrunden zu ermöglichen. Der Name MLPerf™ und das Logo sind Marken der MLCommons Association in den USA und anderen Ländern. Alle Rechte vorbehalten. Die nicht autorisierte Verwendung ist strengstens untersagt. Weitere Informationen finden Sie unter https://mlcommons.org.

 

Ergebnisse von MLPerf™ HPC v3.0, abgerufen von https://mlcommons.org am 8. November 2023. Ergebnisse aus den Einträgen 3.0-8004, 3.0-8009 und 3.0-8010. Der Name MLPerf™ und das Logo sind Marken der MLCommons Association in den USA und anderen Ländern. Alle Rechte vorbehalten. Die nicht autorisierte Verwendung ist strengstens untersagt. Weitere Informationen finden Sie unter https://mlcommons.org.

Die Technologie hinter den Ergebnissen

Die Komplexität der KI erfordert eine enge Integration aller Aspekte der Plattform. Wie die Benchmarks von MLPerf zeigen, liefert die KI-Plattform von NVIDIA erstklassige Leistung mit dem weltweit fortschrittlichsten Grafikprozessor, leistungsfähigen und skalierbaren Verbindungstechnologien sowie modernster Software – eine durchgehende Lösung, die im Rechenzentrum, in der Cloud oder in der Peripherie mit beeindruckenden Ergebnissen eingesetzt werden kann.

Optimierte Software zur Beschleunigung von KI-Workflows

Als wesentlicher Bestandteil der NVIDIA-Plattform und der MLPerf-Trainings- sowie Inferenzergebnisse ist der NGC™-Katalog ein Knotenpunkt für GPU-optimierte KI-, HPC- und Datenanalysesoftware, die End-to-End-Workflows vereinfacht und beschleunigt. Mit über 150 Containern auf Unternehmensniveau – einschließlich Workloads für generative KI, Gesprächs-KI und Empfehlungssysteme, Hunderten von KI-Modellen sowie branchenspezifischen SDKs, die vor Ort, in der Cloud oder am Edge bereitgestellt werden können – ermöglicht NGC Datenwissenschaftlern, Forschern und Entwicklern, erstklassige Lösungen zu erstellen, Erkenntnisse zu erlangen und schneller als je zuvor Geschäftswerte zu erzielen.

Erstklassige KI-Infrastruktur

Um weltweit führende Ergebnisse bei Training und Inferenz zu erzielen, bedarf es einer Infrastruktur, die speziell für die komplexesten KI-Herausforderungen der Welt entwickelt wurde. Die NVIDIA-KI-Plattform lieferte führende Leistung, die von der NVIDIA Blackwell-Plattform, der Hopper-Plattform, NVLink™, NVSwitch™ und Quantum InfiniBand unterstützt wird. Diese bilden das Herzstück der NVIDIA Rechenzentrumsplattform, der Engine hinter unserer Benchmark-Leistung.

Darüber hinaus liefern NVIDIA DGX™-Systeme die Skalierbarkeit, schnelle Bereitstellung und unglaubliche Rechenleistung, die jedem Unternehmen die Möglichkeit bieten, eine KI-Infrastruktur der Spitzenklasse aufzubauen. 

Erschließung generativer KI am Edge mit transformativer Leistung

NVIDIA Jetson Orin bietet beispiellose KI-Rechenleistung, einen großen vereinheitlichten Arbeitsspeicher und umfassende Software-Stacks, die eine überlegene Energieeffizienz für die neuesten generativen KI-Anwendungen liefern. Es ist in der Lage, schnelle Inferenzen für alle generativen KI-Modelle zu führen, die von der Transformer-Architektur unterstützt werden, und bietet auf MLPerf eine überragende Edge-Performance.

Erfahren Sie mehr über die Leistung unseres Rechenzentrums bei Training und Inferenz.

Große Sprachmodelle

MLPerf Training verwendet das generative Sprachmodell GPT-3 mit 175 Milliarden Parametern und einer Sequenzlänge von 2.048 auf dem C4-Datensatz für die LLM-Pre-Training-Workload. Für den LLM-Feinabstimmungstest das Llama 2 70B-Modell mit dem GovReport-Dataset mit Sequenzlängen von 8.192.

MLPerf Inference verwendet das Llama 2 70B-Modell mit dem OpenORCA-Datensatz; das Mixtral 8x7B-Modell mit den OpenORCA-, GSM8K- und MBXP-Datensätzen; und das GPT-J-Modell mit dem CNN-DailyMail-Datensatz.

Text-zu-Bild

MLPerf Training verwendet das Stable Diffusion v2 Text-zu-Bild-Modell, das auf dem LAION-400M-gefilterten Datensatz trainiert wurde.

MLPerf Inference verwendet das Stable Diffusion XL (SDXL) Text-zu-Bild-Modell mit einer Teilmenge von 5.000 Prompts aus dem coco-val-2014-Datensatz. 

Empfehlung

MLPerf Training und Inference verwenden das Deep Learning Recommendation Model v2 (DLRMv2), welches das DCNv2-Cross-Layer und einen aus dem Criteo-Datensatz synthetisierten Multi-Hot-Datensatz anwendet.

Objekterkennung (leicht)

MLPerf Training verwendet Single-Shot Detector (SSD) mit ResNeXt50 Backbone auf einer Teilmenge des Google OpenImages-Datasets.

Neuronales Netzwerk für Graphen

MLPerf Training verwendet R-GAT mit dem Illinois Graph Benchmark (IGB) – Heterogener Datensatz.

Bildklassifikation

MLPerf Inference verwendet ResNet v1.5 mit dem ImageNet-Datensatz.

Verarbeitung natürlicher Sprache (NLP)

MLPerf Training verwendet bidirektionale Encoder-Darstellungen von Transformatoren (BERT) für den 2020/01/01-Datensatz von Wikipedia.

MLPerf Inference verwendet BERT mit dem SQuAD v.1.1 Datensatz.

Biomedizinische Bildsegmentierung

MLPerf Inference verwendet 3D U-Net mit dem KiTS19-Datensatz.

Identifikation klimatisch-atmosphärischer Flüsse

Verwendet das DeepCAM-Modell mit CAM5 und TECA-Simulationsdataset.

Vorhersage kosmologischer Parameter

Verwendet das CosmoFlow-Modell mit dem CosmoFlow-N-Körper-Simulationsdatensatz.

Quantenmolekulare Modellierung

Verwendet das DimeNet++-Modell mit dem Open Catalyst 2020-Datensatz (OC20).

Proteinstrukturvorhersage

Verwendet das OpenFold-Modell, das auf dem OpenProteinSet-Dataset trainiert wurde.