MLPerf-Benchmarks

Die KI-Plattform von NVIDIA glänzt bei MLPerf Training, Inferenz und HPC mit führender Leistung und Vielseitigkeit, um die anspruchsvollsten KI-Workloads in der Praxis zu bewältigen.

Was ist MLPerf?

Die MLPerf™-Benchmarks — entwickelt von MLCommons, einem Konsortium von führenden Akteuren im KI-Bereich aus Wissenschaft, Forschungslaboren und der Wirtschaft — sollen dazu dienen, unvoreingenommene Bewertungen von Trainings- und Inferenzleistung für Hardware, Software und Services vorzunehmen. Sie werden alle unter festgelegten Bedingungen durchgeführt. Um bei den Branchentrends nicht ins Hintertreffen zu gelangen, entwickelt sich MLPerf ständig weiter, führt regelmäßig neue Tests durch und fügt neue Workloads hinzu, die dem neuesten Stand von KI entsprechen.

Die Technische Hochschule Chalmers, eine der führenden Forschungseinrichtungen in Schweden, ist auf mehrere Bereiche von der Nanotechnologie bis zur Klimaforschung spezialisiert. Seit wir für unsere Forschungsbemühungen KI nutzen, konnten wir feststellen, dass der MLPerf-Benchmark einen transparenten und sinnvollen Vergleich über mehrere KI-Plattformen hinweg ermöglicht und die tatsächliche Leistung in verschiedenen realen Anwendungsfällen widerspiegelt.

– Technische Universität Chalmers, Schweden

TSMC fordert und fördert die Spitzentechnologie der globalen Halbleiterfertigung, beispielsweise mit unserem neuesten 5-nm-Knoten, der marktführend in der Prozesstechnologie ist. Innovationen wie auf maschinellem Lernen basierende Lithographie und Ätzverfahren verbessern die Genauigkeit unserer Korrektur des optischen Naheffekts (Optical Proximity Correction, OPC) und der Ätzungssimulation dramatisch. Um das Potenzial des maschinellen Lernens bei Modelltraining und Inferenz voll auszuschöpfen, arbeiten wir mit dem NVIDIA-Entwicklungsteam zusammen, um unsere Maxwell-Simulations- und ILT-Engine (Inverse Lithography Technology) auf GPUs zu portieren und somit signifikante Beschleunigungen zu erzielen. Der MLPerf-Benchmark ist für uns ein wichtiger Faktor bei der Entscheidungsfindung.

– Dr. Danping Peng, Direktor, OPC-Abteilung, TSMC, San Jose, Kalifornien, USA

Computer Vision und Bildgebung stehen im Mittelpunkt der KI-Forschung, sind Triebfeder der wissenschaftlichen Entdeckung und stellen Kernkomponenten der medizinischen Versorgung dar. Wir konnten in enger Zusammenarbeit mit NVIDIA Innovationen wie 3DUNet für den Gesundheitssektor umsetzen. MLPerf-Benchmarks sind der Industriestandard und liefern relevante Leistungsdaten, wodurch sie IT-Organisationen und Entwicklern helfen, die richtige Lösung für die Beschleunigung ihrer spezifischen Projekte und Anwendungen zu finden.

– Prof. Dr. Klaus Maier-Hein (Head of Medical Image Computing, Deutsches Krebsforschungszentrum (DKFZ))

Als Marktführer im Bereich Forschung und Fertigung nutzt Samsung KI, um die Produktleistung und die Produktivität in der Fertigung deutlich zu steigern. Um diese KI-Fortschritte in der Produktion nutzen zu können, benötigen wir die beste erhältliche Computerplattform. Der MLPerf-Benchmark optimiert unseren Auswahlprozess, indem er uns eine offene, direkte Evaluationsmethode zur Verfügung stellt, mit der wir verschiedene Plattformen einheitlich bewerten können.

– Samsung Electronics

MLPerf-Benchmarks

MLPerf Training v3.1 misst die Zeit für das Trainieren von Modellen in neun verschiedenen Anwendungsfällen, einschließlich großer Sprachmodelle (LLMs), Bildgenerierung, Computer Vision, Segmentierung medizinischer Bilder, Spracherkennung und Empfehlungen.

MLPerf Inference v3.1 testet die Inferenzleistung mit sieben verschiedenen Arten von neuronalen Netzen, darunter LLMs, die Verarbeitung natürlicher Sprache, Computer Vision und die Segmentierung medizinischer Bilder.

MLPerf HPC v3.0 testet vier verschiedene Anwendungsfälle für wissenschaftliche Berechnungen, darunter die Identifizierung von klimatischen und atmosphärischen Flüssen, die Parametervorhersage in der Kosmologie, die Quantenmolekularmodellierung und die Proteinstrukturvorhersage.

Large Language Model (LLM)

Große Sprachmodelle

Deep-Learning-Algorithmen, die mit umfangreichen Datensätzen trainiert wurden und in der Lage sind, Inhalte für eine Vielzahl von Anwendungsfällen zu erkennen, zusammenzufassen, zu übersetzen, vorherzusagen und zu generieren. details.

Text-to-Image

Text-zu-Bild

Generiert Bilder aus Texteingabeaufforderungen. details.

Recommendation

Empfehlung

Bietet personalisierte Ergebnisse in Diensten für Benutzer, wie Social-Media- oder E-Commerce-Websites, indem Interaktionen zwischen Nutzern und Serviceartikeln, wie beispielsweise Produkte oder Anzeigen, analysiert werden. details.

Object Detection (Lightweight)

Objekterkennung (leicht)

Sucht nach Instanzen von Objekten aus der realen Welt, wie Gesichtern, Fahrrädern und Gebäuden in Bildern oder Videos, und gibt jeweils einen Begrenzungsrahmen an. details.

Object Detection (Heavyweight)

Objekterkennung (schwer)

Erkennt verschiedene interessante Objekte, die in einem Bild angezeigt werden, und identifiziert jeweils eine Pixelmaske. details.

Image Classification

Bildklassifikation

Weist einem Eingabebild ein Label aus einem festgelegten Satz von Kategorien zu, beispielsweise bei Computer-Vision-Problemen. details.

Natural Language Processing (NLP)

Verarbeitung natürlicher Sprache (NLP)

Versteht Text, indem die Beziehung zwischen verschiedenen Wörtern in einem Textblock verwendet wird. Ermöglicht die Beantwortung von Fragen, die Satzparaphrasierung und viele andere sprachbezogene Anwendungsfälle. details.

Automatic Speech Recognition (ASR)

Automatische Spracherkennung (Automatic Speech Recognition, ASR)

Erkennt und transkribiert Audio in Echtzeit. details.

Biomedical Image Segmentation

Biomedizinische Bildsegmentierung

Führt die volumetrische Segmentierung dichter 3D-Bilder für medizinische Anwendungsfälle durch. details.

Climate Atmospheric River Identification Category

Identifizierung von Klima und Atmosphäre in Flüssen

Identifizieren von Hurrikans und atmosphärische Flüsse in Klimasimulationsdaten. details.

Cosmology Parameter Prediction Category

Kosmologische Parameterprognose

Lösen eines 3D-Bildregressionsproblems für kosmologische Daten. details.

Quantum Molecular Modeling Category

Quantenmolekulare Modellierung

Vorhersage von Energie oder molekularen Konfigurationen. details.

Protein Structure Prediction

Proteinstrukturvorhersage

Prognostiziert die dreidimensionale Proteinstruktur basierend auf der eindimensionalen Aminosäurekonnektivität. details.

NVIDIA – MLPerf-Benchmarkergebnisse

  • Schulung

    Schulung

  • Inferenz

    Inferenz

  • HPC

    HPC

Die NVIDIA-Plattform für beschleunigte Berechnungen mit NVIDIA H100 Tensor Core-Grafikprozessoren und NVIDIA Quantum-2 InfiniBand-Netzwerken brach in MLPerf Training v3.1 große Leistungsrekorde im LLM-Training und unterstützte zwei Einreichungen in einer neuen Größenordnung mit 10.752 H100-Grafikkarten und nahezu linearer Skalierung beim Benchmarktest GPT-3 175B. Und bei dem neu hinzugefügten Text-zu-Bild-Test, der auf Stable Diffusion basiert, setzte die NVIDIA-Plattform die Messlatte und lieferte höchste Leistung und unübertroffene Skalierbarkeit. Durch unermüdliches Full-Stack-Engineering im Rechenzentrumsebene beschleunigt NVIDIA die KI-Trainingsleistung weiterhin mit Lichtgeschwindigkeit.

NVIDIA stellt mit der bisher größten MLPerf-Einreichung einen neuen Trainingsrekord für große Sprachmodelle auf

NVIDIA Sets a New Large Language Model Training Record With Largest MLPerf Submission Ever
Benchmark Per-Accelerator Records
(NVIDIA H100 Tensor Core GPU)
Large Language Model (GPT-3 175B) 548 hours (23 days)
Natural Language Processing (BERT) 0.71 hours
Recommendation (DLRM-DCNv2) 0.56 hours
Speech Recognition (RNN-T) 2.2 hours
Image Classification (ResNet-50 v1.5) 1.8 hours
Object Detection, Heavyweight (Mask R-CNN) 2.6 hours
Object Detection, Lightweight (RetinaNet) 4.9 hours
Image Segmentation (3D U-Net) 1.6 hours

NVIDIA-KI-Plattform erreicht höchste Leistung bei jedem MLPerf-Trainingstest

Neben der bahnbrechenden Leistung im großen Maßstab bei hochmodernen umfangreichen Sprachmodell- und Text-zu-Bild-Tests erzielte NVIDIA auch neue Leistungsrekorde bei den Workloads Empfehlungsdienst, Objekterkennung, Segmentierung medizinischer Bilder und Verarbeitung natürlicher Sprache in MLPerf Training v3.1. Mit NVIDIA H100-Grafikprozessoren und NVIDIA Quantum-2 bietet die NVIDIA-Plattform weiterhin die schnellste Trainingszeit bei jeder Benchmark und stellt ihre unübertroffene Leistung und Vielseitigkeit unter Beweis, um die gesamte Bandbreite von KI-Workloads zu bewältigen.

Maximale Leistung

Benchmark Zeit zum Trainieren
GPT-3 3,92 Minuten
Stable Diffusion v2 2,47 Minuten
DLRM-DCNv2 1,0 Minuten
BERT-large 0,12 Minuten
ResNet-50 v1.5 0,18 Minuten
Mask R-CNN 1,5 Minuten
RetinaNet 0,92 Minuten
3D U-Net 0,77 Minuten
RNN-T 1,7 Minuten

Der NVIDIA H100-Tensor-Core-Grafikprozessor lieferte in allen Rechenzentrums-Workloads und -Szenarien mit MLPerf Inference v3.1 den höchsten Durchsatz. Bei seinem MLPerf-Debüt führte der NVIDIA GH200-Grace Hopper™ Superchip jeden Workload aus und übertraf die außergewöhnliche Leistung von H100. Der NVIDIA L4-Tensor-Core-Grafikprozessor, der als der effizienteste NVIDIA-Beschleuniger für Mainstream-Server optimiert wurde, erzielte ebenfalls auf ganzer Linie hervorragende Ergebnisse. Für energieeffiziente KI- und Robotikanwendungen in der Peripherie demonstrierten NVIDIA Jetson AGX Orin™ und Jetson Orin NX weiterhin herausragende Funktionen für System-on-Module-Inferenz.

Offlineszenario für Rechenzentrum und Edge (einzelne Grafikkarte)

NVIDIA GH200 Grace Hopper Superchip (Inferenzen/Sekunde) NVIDIA H100 (Inferenzen/Sekunde) NVIDIA L4 (Inferenzen/Sekunde) NVIDIA Jetson AGX Orin (Max. Inferenzen/Abfrage) NVIDIA Jetson Orin NX (Max. Inferenzen/Abfrage)
GPT-J (großes Sprachmodell) 13.34 13.29 1.30 k. A. k. A.
DLRMv2 (Empfohlen) 49,002 42,856 3,673 k. A.* k. A.*
BERT (Verarbeitung natürlicher Sprache)** 8,646 7,878 631 554 195
ResNet-50 v1.5 (Bildklassifikation) 93,198 88,526 12,882 6,424 2,641
RetinaNet (Objekterkennung) 1,849 1,761 226 149 67
RNN-T (Spracherkennung) 25,975 23,307 3,899 1,170 432
3D U-Net (Medizinische Bildgebung) 6.8 6.5 1.07 0.51 0.20

Der NVIDIA H100-Tensor-Core hat bei seinem MLPerf HPC v3.0-Debüt die NVIDIA-Plattform für HPC und KI deutlich verbessert. Er steigert die Leistung um das bis zu 2-Fache und liefert die höchste Leistung bei allen Workloads, sowohl bei der Trainingszeit als auch bei den Durchsatzmetriken. Die NVIDIA-Plattform war auch die einzige Plattform, die Ergebnisse für jeden MLPerf-HPC-Workload einreichte, die Klimasegmentierung, kosmologische Parametervorhersage, quantenmolekulare Modellierung und die neueste Ergänzung der Proteinstrukturvorhersage umfassten. Die unübertroffene Leistung und Vielseitigkeit der NVIDIA-Plattform macht sie zum Instrument der Wahl, wenn es um KI-gestützte wissenschaftliche Entdeckungen geht.

Bis zu 16-mal mehr Leistung in 3 Jahren

NVIDIA-Full-Stack-Innovationen sorgen für Leistungssteigerungen

Up to 16X More Performance in 3 Years
Up to 16X More Performance in 3 Years

Die Technologie hinter den Ergebnissen

Da KI ein so komplexer Bereich ist, ist eine enge Integration aller Aspekte der Plattform vonnöten. Wie die Benchmarks von MLPerf zeigen, liefert die KI-Plattform von NVIDIA erstklassige Leistung mit dem weltweit fortschrittlichsten Grafikprozessor, leistungsfähigen und skalierbaren Verbindungstechnologien sowie modernster Software – eine durchgehende Lösung, die im Rechenzentrum, in der Cloud oder in der Peripherie mit beeindruckenden Ergebnissen eingesetzt werden kann.

Vorab trainierte Modelle und optimierte Software von NVIDIA NGC

Optimierte Software zur Beschleunigung von KI-Workflows

Als wesentlicher Bestandteil der NVIDIA-Plattform und der MLPerf-Trainings- sowie Inferenzergebnisse ist der NGC™-Katalog eine Drehscheibe für Grafikkartenoptimierte KI-, HPC- und Datenanalysesoftware, die End-to-End-Workflows vereinfacht und beschleunigt. Mit über 150 Containern auf Enterprise-Ebene – einschließlich Workloads für Generative-KI-, Gesprächs-KI-, und Empfehlungssysteme, hunderten KI-Modellen und branchenspezifischen SDKs, die lokal, in der Cloud oder in der Peripherie bereitgestellt werden können – ermöglicht es NGC Datenwissenschaftlern, Forschern und Entwicklern, erstklassige Lösungen zu entwickeln, Erkenntnisse zu sammeln und Geschäftsnutzen schneller als je zuvor zu liefern.

Erstklassige KI-Infrastruktur

Um weltweit führende Ergebnisse über Trainings und die Inferenz hinweg zu erzielen, bedarf es einer Infrastruktur, die speziell für die komplexesten KI-Herausforderungen der Welt entwickelt wurde. Die NVIDIA KI-Plattform lieferte führende Leistung dank NVIDIA GH200 Grace Hopper Superchip, der NVIDIA H100 Tensor Core-Grafikkarte, der NVIDIA L4 Tensor Core-Grafikkarte sowie Skalierbarkeit und Flexibilität der NVIDIA-Verbindungstechnologien –NVIDIA NVLink®, NVSwitch™ und Quantum-2 InfiniBand. Diese sind das Herzstück der NVIDIA Rechenzentrumsplattform, der Engine hinter unserer Benchmark-Leistung.

Darüber hinaus zeichnen sich die DGX™-Systeme von NVIDIA zeichnen sich aus durch Skalierbarkeit, schnelle Bereitstellung und unglaubliche Rechenleistung, die es jedem Unternehmen ermöglichen, eine erstklassige KI-Infrastruktur aufzubauen.

Leadership-Class AI Infrastructure

Erfahren Sie mehr über die Leistung unserer Rechenzentrumsprodukte bei Training und Inferenz.