MLPerf-Benchmarks

Training- und Inferenz-Lösungen von NVIDIA erzielen rekordverdächtige Leistung in der Bewertung von MLPerf, dem führenden Branchenbenchmark für KI-Leistung

Was ist MLPerf?

MLPerf ist ein Konsortium von führenden Akteuren im KI-Bereich aus Wissenschaft, Forschungslaboren und der Wirtschaft, deren Aufgabe es ist, „faire und nutzbare Benchmarks zu schaffen“. Sie sollen dazu dienen, unvoreingenommene Bewertungen von Trainings- und Inferenzleistung für Hardware, Software und Services vorzunehmen, die alle unter vorgegebenen Bedingungen durchgeführt werden. Um bei den Branchentrends nicht ins Hintertreffen zu gelangen, entwickelt sich MLPerf ständig weiter, führt regelmäßig neue Tests durch und fügt neue Workloads hinzu, die dem neuesten Stand von KI entsprechen.

Die Technische Hochschule Chalmers, eine der führenden Forschungseinrichtungen in Schweden, ist auf mehrere Bereiche von der Nanotechnologie bis zur Klimaforschung spezialisiert. Seit wir für unsere Forschungsbemühungen KI nutzen, konnten wir feststellen, dass der MLPerf-Benchmark einen transparenten und sinnvollen Vergleich über mehrere KI-Plattformen hinweg ermöglicht und die tatsächliche Leistung in verschiedenen realen Anwendungsfällen widerspiegelt.

– Technische Universität Chalmers, Schweden

TSMC fordert und fördert die Spitzentechnologie der globalen Halbleiterfertigung, beispielsweise mit unserem neuesten 5-nm-Knoten, der marktführend in der Prozesstechnologie ist. Innovationen wie auf maschinellem Lernen basierende Lithographie und Ätzverfahren verbessern die Genauigkeit unserer Korrektur des optischen Naheffekts (Optical Proximity Correction, OPC) und der Ätzungssimulation dramatisch. Um das Potenzial des maschinellen Lernens bei Modelltraining und Inferenz voll auszuschöpfen, arbeiten wir mit dem NVIDIA-Entwicklungsteam zusammen, um unsere Maxwell-Simulations- und ILT-Engine (Inverse Lithography Technology) auf GPUs zu portieren und somit signifikante Beschleunigungen zu erzielen. Der MLPerf-Benchmark ist für uns ein wichtiger Faktor bei der Entscheidungsfindung.

– Dr. Danping Peng, Direktor, OPC-Abteilung, TSMC, San Jose, Kalifornien, USA

Computer Vision und Bildgebung stehen im Mittelpunkt der KI-Forschung, sind Triebfeder der wissenschaftlichen Entdeckung und stellen Kernkomponenten der medizinischen Versorgung dar. Wir konnten in enger Zusammenarbeit mit NVIDIA Innovationen wie 3DUNet für den Gesundheitssektor umsetzen. MLPerf-Benchmarks sind der Industriestandard und liefern relevante Leistungsdaten, wodurch sie IT-Organisationen und Entwicklern helfen, die richtige Lösung für die Beschleunigung ihrer spezifischen Projekte und Anwendungen zu finden.

– Prof. Dr. Klaus Maier-Hein (Head of Medical Image Computing, Deutsches Krebsforschungszentrum (DKFZ)

Als Marktführer im Bereich Forschung und Fertigung nutzt Samsung KI, um die Produktleistung und die Produktivität in der Fertigung deutlich zu steigern. Um diese KI-Fortschritte in der Produktion nutzen zu können, benötigen wir die beste erhältliche Computerplattform. Der MLPerf-Benchmark optimiert unseren Auswahlprozess, indem er uns eine offene, direkte Evaluationsmethode zur Verfügung stellt, mit der wir verschiedene Plattformen einheitlich bewerten können.

– Samsung Electronics

MLPerf – Einreichungskategorien

MLPerf Training setzt sich aus acht verschiedenen Workloads zusammen, die verschiedenste Anwendungsfälle umfassen, darunter Vision, Sprache, Empfehlungen und bestärkendes Lernen.

MLPerf Inference wurde in sieben verschiedenen Anwendungsfällen in sieben verschiedenen Arten von neuronalen Netzen getestet. Drei dieser Anwendungsfälle sind für Computer Vision, einer für Empfehlungssysteme, zwei für die Sprachverarbeitung und einer für die medizinische Bildgebung.

Bildklassifikation

Bildklassifikation

Weist einem Eingabebild ein Label aus einem festgelegten Satz von Kategorien zu, beispielsweise bei Computer-Vision-Problemen. Details.

Objekterkennung (leicht)

Objekterkennung (leicht)

Sucht nach Instanzen von Objekten aus der realen Welt, wie Gesichtern, Fahrrädern und Gebäuden in Bildern oder Videos, und gibt jeweils einen Begrenzungsrahmen an. Details.

Objekterkennung (schwer)

Objekterkennung (schwer)

Erkennt verschiedene interessante Objekte, die in einem Bild angezeigt werden, und identifiziert jeweils eine Pixelmaske. Details.

Biomedizinische Bildsegmentierung

Biomedizinische Bildsegmentierung

Führt die volumetrische Segmentierung dichter 3D-Bilder für medizinische Anwendungsfälle durch. Details.

Übersetzung (wiederholt)

Übersetzung (wiederholt)

Übersetzt Text aus einer Sprache in eine andere Sprache mithilfe eines rekurrenten neuronalen Netzes (RNN). Details.

Automatische Spracherkennung (Automatic Speech Recognition, ASR)

Automatische Spracherkennung (Automatic Speech Recognition, ASR)

Erkennt und transkribiert Audio in Echtzeit. Details.

Verarbeitung natürlicher Sprache (NLP)

Verarbeitung natürlicher Sprache (NLP)

Versteht Text, indem die Beziehung zwischen verschiedenen Wörtern in einem Textblock verwendet wird. Ermöglicht die Beantwortung von Fragen, die Satzparaphrasierung und viele andere sprachbezogene Anwendungsfälle. Details.

Empfehlung

Empfehlung

Bietet personalisierte Ergebnisse in Diensten für Benutzer, wie Social-Media- oder E-Commerce-Websites, indem Interaktionen zwischen Nutzern und Serviceartikeln, wie beispielsweise Produkte oder Anzeigen, analysiert werden. Details.

Bestärkendes Lernen

Bestärkendes Lernen

Bewertet verschiedene mögliche Aktionen zur Maximierung des Nutzens mithilfe des Strategiespiels Go, das in einem 19 x 19-Raster gespielt wird. Details.

NVIDIA – MLPerf-Benchmarkergebnisse

  • Training

    Training

  • Inferenz

    Inferenz

Die NVIDIA A100 Tensor Core-GPU und der NVIDIA DGX SuperPOD haben alle 16 Trainingsleistungsrekorde sowohl bei Pro-Chip- als auch bei At-Scale-Workloads. Diese bahnbrechende Leistung – zusammen mit einer Verbesserung des Durchsatzes gegenüber den vier MLPerf-Einreichungen – resultierte aus der engen Integration von Hardware, Software und Technologien auf Systemebene und den kontinuierlichen Investitionen von NVIDIA in Full-Stack-Leistung. Die NVIDIA-Plattform zeichnet sich sowohl durch Leistung als auch durch Nutzerfreundlichkeit aus und bietet eine einzelne führende Plattform für alles vom Rechenzentrum über den Edge bis hin zur Cloud.

MEHR ALS DIE 20-FACHE LEISTUNG IN DREI JAHREN VON MLPERF

NVIDIAs Innovationen in den gesamten Technologie-Stack sorgen fortlaufend für Verbesserungen

MLPerf Training-Leistungs-Benchmarks

NVIDIA STELLT ALLE 16 REKORDE AUF

Für handelsübliche Lösungen

Die NVIDIA KI-Plattform stellte alle 8 Rekorde pro Beschleuniger mit NVIDIA A100-GPUs in OEM-Servern sowie NVIDIA DGX auf. Dies demonstriert die Stärke der durchgängigen NVIDIA-Hardware- und Software-Stacks, mit denen Computerhersteller Rekordergebnisse auf MLPerf liefern können.

BENCHMARKTESTS Rekorde auf hohem Niveau (Min.) Rekorde pro Beschleuniger (Min.)
Empfehlung (DLRM) 0,63 (DGX SuperPOD) 13,5 (A100)
NLP (BERT) 0,24 (DGX SuperPOD) 155,1 (A100)
Spracherkennung – rekurrent (RNN-T) 2,38 (DGX SuperPOD) 267,0 (A100)
Objekterkennung – schwer (Mask R-CNN) 3,24 (DGX SuperPOD) 335,1 (A100)
Objekterkennung – leicht (SSD) 0,45 (DGX SuperPOD) 63,8 (A100)
Bildklassifizierung (ResNet-50 v1.5) 0,35 (DGX SuperPOD) 220,5 (A100)
Bildsegmentierung (3D-Unet) 1,26 (Microsoft Azure NDm A100 v4) 187,7 (A100)
Bestärkendes Lernen (MiniGo) 15,47 (DGX SuperPOD) 1805,2 (A100)

NVIDIA erzielte herausragende Leistungsergebnisse in allen Szenarien (Server und Offline im Rechenzentrum sowie Single-Stream, Multi-Stream und Offline in der Peripherie). Darüber hinaus erreichten wir in allen Benchmarktests die beste Leistung pro Beschleuniger im Vergleich aller getesteten Produkte. Diese Ergebnisse bestätigen nicht nur NVIDIAs führende Position im Bereich Inferenz, sondern belegen auch die Vielseitigkeit unserer Inferenzplattform.

Offlineszenario für Rechenzentrum und Edge (einzelne GPU)

  NVIDIA A100 (x86-CPU)
(Inferenzen/Sekunde)
NVIDIA A100 (Arm-CPU)
(Inferenzen/Sekunde)
NVIDIA A30
(Inferenzen/Sekunde)
NVIDIA® Jetson Xavier
(Max. Inferenzen/Abfrage)
DLRM
(Empfohlen)
312.380 281.283 138.194 k. A.*
BERT
(Verarbeitung natürlicher Sprache)
3.490 3.149 1.668 476
ResNet-50 v1.5
(Bildklassifikation)
39.160 36.487 18.406 6.139
ResNet-34
(Single-Shot Detector groß)
990 906 478 208
RNN-T
(Spracherkennung)
13.344 13.188 6.557 1.110
3D U-Net
(Medizinische Bildgebung)
3 3 2 0,5

Die Technologie hinter den Ergebnissen

Da KI ein so komplexer Bereich ist, ist eine enge Integration aller Aspekte der Plattform vonnöten. Wie die Benchmarks von MLPerf zeigen, liefert die KI-Plattform von NVIDIA erstklassige Leistung mit dem weltweit fortschrittlichsten Grafikprozessor, leistungsfähigen und skalierbaren Verbindungstechnologien sowie modernster Software – eine durchgehende Lösung, die im Rechenzentrum, in der Cloud oder in der Peripherie mit beeindruckenden Ergebnissen eingesetzt werden kann.

Vorab trainierte Modelle und optimierte Software von NVIDIA NGC

Optimierte Software zur Beschleunigung von KI-Workflows

Als wesentlicher Bestandteil der NVIDIA-Plattform und der MLPerf-Trainings- sowie Inferenzergebnisse ist NGC eine Drehscheibe für GPU-optimierte KI-, High-Performance-Computing (HPC)- und Datenanalysesoftware, die End-to-End-Workflows vereinfacht und beschleunigt. Mit über 150 Containern auf Enterprise-Ebene, einschließlich Workloads für Gesprächs-KI- und Empfehlungssysteme, über 100 Modellen und branchenspezifischen SDKs, die lokal, in der Cloud oder in der Peripherie bereitgestellt werden können, ermöglicht es NGC Datenwissenschaftlern, Forschern und Entwicklern, erstklassige Lösungen zu entwickeln, Erkenntnisse zu sammeln und Geschäftsnutzen schneller als je zuvor zu liefern.

Erstklassige KI-Infrastruktur

Um weltweit führende Ergebnisse über Trainings und die Inferenz hinweg zu erzielen, bedarf es einer Infrastruktur, die speziell für die komplexesten KI-Herausforderungen der Welt entwickelt wurde. Die NVIDIA KI-Plattform nutzt die Leistung der NVIDIA A100 Tensor Core-GPU, der NVIDIA A30 Tensor Core-GPU, der NVIDIA A2 Tensor Core-GPU, des Jetson AGX Orin-Moduls sowie Skalierbarkeit und Flexibilität der NVIDIA-Verbindungstechnologien – NVIDIA NVLink®, NVIDIA NVSwitch und NVIDIA ConnectX®-6 VPI. Diese sind das Herzstück der NVIDIA DGX™ A100, der Engine hinter unserer Benchmark-Leistung.

DGX-Systeme von NVIDIA zeichnen sich aus durch Skalierbarkeit, schnelle Bereitstellung und unglaubliche Rechenleistung, die es jedem Unternehmen ermöglichen, eine erstklassige KI-Infrastruktur aufzubauen.

NVIDIA Tensor-Recheneinheiten-GPU

Erfahren Sie mehr über die Leistung unserer Rechenzentrumsprodukte bei Training und Inferenz.