Die MLPerf™-Benchmarks – entwickelt von MLCommons, einem Konsortium von führenden Akteuren im KI-Bereich aus Wissenschaft, Forschungslaboren und der Wirtschaft – sollen dazu dienen, unvoreingenommene Bewertungen von Trainings- und Inferenzleistung für Hardware, Software und Services vorzunehmen. Sie werden alle unter festgelegten Bedingungen durchgeführt. Um bei den Branchentrends nicht ins Hintertreffen zu geraten, entwickelt sich MLPerf ständig weiter, führt regelmäßig neue Tests durch und fügt neue Workloads hinzu, die dem neuesten Stand der KI entsprechen.
MLPerf Inference v4.1 misst die Inferenzleistung auf neun verschiedenen Benchmarks, darunter mehrere große Sprachmodelle (LLMs), Text-zu-Bild, Verarbeitung natürlicher Sprache, Empfehlungen, Computer Vision und Segmentierung medizinischer Bilder.
MLPerf Training v4.1 misst die Zeit für das Trainieren auf sieben verschiedenen Benchmarks, darunter LLM-Vortraining, LLM-Feinabstimmung, Text-zu-Bild, neuronales Graphen-Netzwerk (Graph Neural Network, GNN), Computer Vision, Empfehlung und Verarbeitung natürlicher Sprache.
MLPerf HPC v3.0 misst die Trainingsleistung in vier verschiedenen wissenschaftlichen Computing-Anwendungsfällen, einschließlich der Identifizierung von klimatisch-atmosphärischen Flüssen, der Vorhersage kosmologischer Parameter, der quantenmolekularen Modellierung und der Proteinstrukturvorhersage.
Die NVIDIA HGX™ B200-Plattform, mit der Leistung von NVIDIA Blackwell GPUs, NVLink™ der fünften Generation und dem neuesten NVLink-Switch, hat in MLPerf Training v4.1 einen weiteren großen Sprung für das LLM-Training erzielt. Durch unermüdliches Full-Stack-Engineering im Rechenzentrumsmaßstab verschiebt NVIDIA weiterhin die Grenzen der generativen KI-Trainingsleistung und beschleunigt die Erstellung und Anpassung immer leistungsfähigerer KI-Modelle.
NVIDIA Blackwell bringt das LLM-Training auf ein neues Level
Ergebnisse von MLPerf™ Training v4.1 von http://www.mlcommons.org am 13. November 2024 aus den folgenden Einträgen: 4.1-0060 (HGX H100, 2024, 512 GPUs) in der Kategorie „Verfügbar“, 4.1-0082 (HGX B200, 2024, 64 GPUs) in der Kategorie „Vorschau“. Ergebnisse von MLPerf™ Training v3.0, verwendet für HGX H100 (2023, 512 GPUs), abgerufen aus Eintrag 3.0-2069. Ergebnis von HGX A100 mit 512 GPUs, nicht von der MLCommons Association verifiziert. Die normalisierte Leistung pro GPU ist keine primäre Metrik von MLPerf™ Training. Der Name MLPerf™ und das Logo sind Marken der MLCommons Association in den USA und anderen Ländern. Alle Rechte vorbehalten. Die nicht autorisierte Verwendung ist strengstens untersagt. Weitere Informationen finden Sie unter http://www.mlcommons.org.
Die NVIDIA-Plattform, die von NVIDIA Hopper™-GPUs, NVLink der vierten Generation mit NVSwitch™ der dritten Generation und Quantum-2 InfiniBand unterstützt wird, zeigte in MLPerf Training v4.1 erneut unübertroffene Leistung und Vielseitigkeit. NVIDIA lieferte in allen sieben Benchmarks die höchste Leistung in großem Maßstab.
Benchmark | Time to Train | Number of GPUs |
---|---|---|
LLM (GPT-3 175B) | 3.4 minutes | 11,616 |
LLM Fine-Tuning (Llama 2 70B-LoRA) | 1.2 minutes | 1,024 |
Text-to-Image (Stable Diffusion v2) | 1.4 minutes | 1,024 |
Graph Neural Network (R-GAT) | 0.9 minutes | 512 |
Recommender (DLRM-DCNv2) | 1.0 minutes | 128 |
Natural Language Processing (BERT) | 0.1 minutes | 3,472 |
Object Detection (RetinaNet) | 0.8 minutes | 2,528 |
Ergebnisse MLPerf™ Training v4.1, wurden am 13. November 2024 von https://mlcommons.org aus den folgenden Einträgen abgerufen: 4.1-0012, 4.1-0054, 4.1-0053, 4.1-0059, 4.1-0055, 4.10058, 4.1-0056. Der Name MLPerf™ und das Logo sind Marken der MLCommons Association in den USA und anderen Ländern. Alle Rechte vorbehalten. Die nicht autorisierte Verwendung ist strengstens untersagt. Weitere Informationen finden Sie unter https://mlcommons.org.
Bei ihrem Debüt mit MLPerf Inference lieferte die NVIDIA Blackwell-Plattform mit dem NVIDIA Quasar Quantization System eine bis zu 4-mal höhere LLM-Leistung im Vergleich zur H100 Tensor Core GPU der vorherigen Generation. Unter den verfügbaren Lösungen lieferte der NVIDIA H200 Tensor Core GPU, der auf der NVIDIA Hopper-Architektur basiert, die höchste Leistung pro GPU für generative KI, einschließlich aller drei LLM-Benchmarks, darunter Llama 2 70B, GPT-J und der neu hinzugefügte Mixture-of-Experts LLM, Mixtral 8x7B sowie der Text-to-Image-Benchmark Stable Diffusion XL. Durch die unermüdliche Softwareoptimierung stieg die Leistung des H200 in weniger als sechs Monaten um bis zu 27 Prozent. Für generative KI am Edge lieferte NVIDIA Jetson Orin™ hervorragende Ergebnisse, mit einer Steigerung des GPT-J-Durchsatzes um mehr als das 6-fache und einer Reduzierung der Latenz um das 2,4-fache in nur einem Durchgang.
MLPerf Inference v4.1 Closed, Data Center. Ergebnisse abgerufen von www.mlperf.org am 28. August 2024. Blackwell-Ergebnisse gemessen auf einer einzelnen GPU und abgerufen von Eintrag 4.1-0074 in der Kategorie Closed, Vorschau. H100-Ergebnisse von Eintrag 4.1-0043 in der Kategorie Closed, Verfügbar auf einem 8x H100-System und geteilt durch die Anzahl der GPUs für den Vergleich pro GPU. Der Durchsatz pro GPU ist keine primäre Metrik von MLPerf Inference. Der Name MLPerf und das Logo sind eingetragene und nicht eingetragene Marken der MLCommons Association in den USA und anderen Ländern. Alle Rechte vorbehalten. Die nicht autorisierte Verwendung ist strengstens untersagt. Weitere Informationen finden Sie unter https://mlcommons.org.
Benchmark | Offline | Server |
---|---|---|
Llama 2 70B | 34,864 tokens/second | 32,790 tokens/second |
Mixtral 8x7B | 59,022 tokens/second | 57,177 tokens/second |
GPT-J | 20,086 tokens/second | 19,243 tokens/second |
Stable Diffusion XL | 17.42 samples/second | 16.78 queries/second |
DLRMv2 99% | 637,342 samples/second | 585,202 queries/second |
DLRMv2 99.9% | 390,953 samples/second | 370,083 queries/second |
BERT 99% | 73,310 samples/second | 57,609 queries/second |
BERT 99.9% | 63,950 samples/second | 51,212 queries/second |
RetinaNet | 14,439 samples/second | 13,604 queries/second |
ResNet-50 v1.5 | 756,960 samples/second | 632,229 queries/second |
3D U-Net | 54.71 samples/second | Not part of benchmark |
MLPerf Inference v4.1 Closed, Data Center. Ergebnisse abgerufen von www.mlperf.org am 28. August 2024. Alle Ergebnisse mit acht GPUs und aus den folgenden Einträgen abgerufen: 4.1-0046, 4.1-0048, 4.1-0050. Der Name MLPerf und das Logo sind eingetragene und nicht eingetragene Marken der MLCommons Association in den USA und anderen Ländern. Alle Rechte vorbehalten. Die nicht autorisierte Verwendung ist strengstens untersagt. Weitere Informationen finden Sie unter https://mlcommons.org.
Der NVIDIA H100 Tensor Core hat die NVIDIA-Plattform für HPC und KI bei seinem Debüt in MLPerf HPC v3.0 mit einer bis zu 16-fachen Beschleunigung der Trainingszeit in nur drei Jahren und der höchsten Leistung bei allen Workloads sowohl in Bezug auf die Trainingszeit als auch auf die Durchsatzmetrik optimiert. Die NVIDIA-Plattform war auch die einzige, die Ergebnisse für jede MLPerf HPC-Workload vorlegte, die die Bereiche Klimasegmentierung, Vorhersage kosmologischer Parameter, quantenmolekulare Modellierung und die neueste Ergänzung, Proteinstrukturvorhersage, umfassen. Die unübertroffene Leistung und Vielseitigkeit der NVIDIA-Plattform macht sie zum Instrument der Wahl, um die nächste Welle KI-gestützter wissenschaftlicher Entdeckungen voranzutreiben.
NVIDIA Full-Stack-Innovation fördert Leistungssteigerungen
Ergebnisse von MLPerf™ HPC v3.0, abgerufen von https://mlcommons.org am 8. November 2023. Ergebnisse abgerufen von Einträgen 0.7-406, 0.7-407, 1.0-1115, 1.0-1120, 1.0-1122, 2.0-8005, 2.0-8006 , 3.0-8006, 3.0-8007, 3.0-8008. CosmoFlow-Score in v1.0 ist auf neue RCPs normalisiert, die in MLPerf HPC v2.0 eingeführt wurden Ergebnisse für v0.7, v1.0 und v2.0 sind angepasst, um die Data-Staging-Zeit aus dem Benchmark zu entfernen. Dies entspricht den neuen Regeln, die für v3.0 angenommen wurden, um faire Vergleiche zwischen den Einreichungsrunden zu ermöglichen. Der Name MLPerf™ und das Logo sind Marken der MLCommons Association in den USA und anderen Ländern. Alle Rechte vorbehalten. Die nicht autorisierte Verwendung ist strengstens untersagt. Weitere Informationen finden Sie unter https://mlcommons.org.
Ergebnisse von MLPerf™ HPC v3.0, abgerufen von https://mlcommons.org am 8. November 2023. Ergebnisse aus den Einträgen 3.0-8004, 3.0-8009 und 3.0-8010. Der Name MLPerf™ und das Logo sind Marken der MLCommons Association in den USA und anderen Ländern. Alle Rechte vorbehalten. Die nicht autorisierte Verwendung ist strengstens untersagt. Weitere Informationen finden Sie unter https://mlcommons.org.
Die Komplexität der KI erfordert eine enge Integration aller Aspekte der Plattform. Wie die Benchmarks von MLPerf zeigen, liefert die KI-Plattform von NVIDIA erstklassige Leistung mit dem weltweit fortschrittlichsten Grafikprozessor, leistungsfähigen und skalierbaren Verbindungstechnologien sowie modernster Software – eine durchgehende Lösung, die im Rechenzentrum, in der Cloud oder in der Peripherie mit beeindruckenden Ergebnissen eingesetzt werden kann.
Als wesentlicher Bestandteil der NVIDIA-Plattform und der MLPerf-Trainings- sowie Inferenzergebnisse ist der NGC™-Katalog ein Knotenpunkt für GPU-optimierte KI-, HPC- und Datenanalysesoftware, die End-to-End-Workflows vereinfacht und beschleunigt. Mit über 150 Containern auf Unternehmensniveau – einschließlich Workloads für generative KI, Gesprächs-KI und Empfehlungssysteme, Hunderten von KI-Modellen sowie branchenspezifischen SDKs, die vor Ort, in der Cloud oder am Edge bereitgestellt werden können – ermöglicht NGC Datenwissenschaftlern, Forschern und Entwicklern, erstklassige Lösungen zu erstellen, Erkenntnisse zu erlangen und schneller als je zuvor Geschäftswerte zu erzielen.
Um weltweit führende Ergebnisse bei Training und Inferenz zu erzielen, bedarf es einer Infrastruktur, die speziell für die komplexesten KI-Herausforderungen der Welt entwickelt wurde. Die NVIDIA-KI-Plattform lieferte führende Leistung, die von der NVIDIA Blackwell-Plattform, der Hopper-Plattform, NVLink™, NVSwitch™ und Quantum InfiniBand unterstützt wird. Diese bilden das Herzstück der NVIDIA Rechenzentrumsplattform, der Engine hinter unserer Benchmark-Leistung.
Darüber hinaus liefern NVIDIA DGX™-Systeme die Skalierbarkeit, schnelle Bereitstellung und unglaubliche Rechenleistung, die jedem Unternehmen die Möglichkeit bieten, eine KI-Infrastruktur der Spitzenklasse aufzubauen.
NVIDIA Jetson Orin bietet beispiellose KI-Rechenleistung, einen großen vereinheitlichten Arbeitsspeicher und umfassende Software-Stacks, die eine überlegene Energieeffizienz für die neuesten generativen KI-Anwendungen liefern. Es ist in der Lage, schnelle Inferenzen für alle generativen KI-Modelle zu führen, die von der Transformer-Architektur unterstützt werden, und bietet auf MLPerf eine überragende Edge-Performance.
Erfahren Sie mehr über die Leistung unseres Rechenzentrums bei Training und Inferenz.