Die Messlatte hoch setzen in MLPerf

Training- und Inferenz-Lösungen von NVIDIA erzielen rekordverdächtige Leistung in der Bewertung von MLPerf, dem führenden Branchenbenchmark für KI-Leistung

Was ist MLPerf?

MLPerf ist ein Konsortium von führenden Akteuren im KI-Bereich aus Wissenschaft, Forschungslaboren und der Wirtschaft, deren Aufgabe es ist, „faire und nutzbare Benchmarks zu schaffen“. Sie sollen dazu dienen, unvoreingenommene Bewertungen von Trainings- und Inferenzleistung für Hardware, Software und Services vorzunehmen, die alle unter vorgegebenen Bedingungen durchgeführt werden. Um bei den Branchentrends nicht ins Hintertreffen zu gelangen, entwickelt sich MLPerf ständig weiter, führt regelmäßig neue Tests durch und fügt neue Workloads hinzu, die dem neuesten Stand von KI entsprechen.

Die Technische Hochschule Chalmers, eine der führenden Forschungseinrichtungen in Schweden, ist auf mehrere Bereiche von der Nanotechnologie bis zur Klimaforschung spezialisiert. Seit wir für unsere Forschungsbemühungen KI nutzen, konnten wir feststellen, dass der MLPerf-Benchmark einen transparenten und sinnvollen Vergleich über mehrere KI-Plattformen hinweg ermöglicht und die tatsächliche Leistung in verschiedenen realen Anwendungsfällen widerspiegelt.

– Technische Universität Chalmers, Schweden

TSMC fordert und fördert die Spitzentechnologie der globalen Halbleiterfertigung, beispielsweise mit unserem neuesten 5-nm-Knoten, der marktführend in der Prozesstechnologie ist. Innovationen wie auf maschinellem Lernen basierende Lithographie und Ätzverfahren verbessern die Genauigkeit unserer Korrektur des optischen Naheffekts (Optical Proximity Correction, OPC) und der Ätzungssimulation dramatisch. Um das Potenzial des maschinellen Lernens bei Modelltraining und Inferenz voll auszuschöpfen, arbeiten wir mit dem NVIDIA-Entwicklungsteam zusammen, um unsere Maxwell-Simulations- und ILT-Engine (Inverse Lithography Technology) auf GPUs zu portieren und somit signifikante Beschleunigungen zu erzielen. Der MLPerf-Benchmark ist für uns ein wichtiger Faktor bei der Entscheidungsfindung.

– Dr. Danping Peng, Direktor, OPC-Abteilung, TSMC, San Jose, Kalifornien, USA

Computer Vision und Bildgebung stehen im Mittelpunkt der KI-Forschung, sind Triebfeder der wissenschaftlichen Entdeckung und stellen Kernkomponenten der medizinischen Versorgung dar. Wir konnten in enger Zusammenarbeit mit NVIDIA Innovationen wie 3DUNet für den Gesundheitssektor umsetzen. MLPerf-Benchmarks sind der Industriestandard und liefern relevante Leistungsdaten, wodurch sie IT-Organisationen und Entwicklern helfen, die richtige Lösung für die Beschleunigung ihrer spezifischen Projekte und Anwendungen zu finden.

– Prof. Dr. Klaus Maier-Hein (Head of Medical Image Computing, Deutsches Krebsforschungszentrum (DKFZ)

Als Marktführer im Bereich Forschung und Fertigung nutzt Samsung KI, um die Produktleistung und die Produktivität in der Fertigung deutlich zu steigern. Um diese KI-Fortschritte in der Produktion nutzen zu können, benötigen wir die beste erhältliche Computerplattform. Der MLPerf-Benchmark optimiert unseren Auswahlprozess, indem er uns eine offene, direkte Evaluationsmethode zur Verfügung stellt, mit der wir verschiedene Plattformen einheitlich bewerten können.

– Samsung Electronics

MLPerf – Einreichungskategorien

MLPerf Training v1.0 ist die vierte Instanz für Training und setzt sich aus acht verschiedenen Workloads zusammen, die verschiedenste Anwendungsfälle umfassen, darunter Vision, Sprache, Empfehlungen und bestärkendes Lernen. 

MLPerf Inference v1.0 wurde in sieben verschiedenen Anwendungsfällen in sieben verschiedenen Arten von neuronalen Netzen getestet. Drei dieser Anwendungsfälle waren für Computer Vision, einer für Empfehlungssysteme, zwei für die Sprachverarbeitung und einer für die medizinische Bildgebung.

Bildklassifikation

Bildklassifikation

Weist einem Eingabebild ein Label aus einem festgelegten Satz von Kategorien zu, beispielsweise bei Computer-Vision-Problemen. Details.

Objekterkennung (leicht)

Objekterkennung (leicht)

Sucht nach Instanzen von Objekten aus der realen Welt, wie Gesichtern, Fahrrädern und Gebäuden in Bildern oder Videos, und gibt jeweils einen Begrenzungsrahmen an. Details.

Objekterkennung (schwer)

Objekterkennung (schwer)

Erkennt verschiedene interessante Objekte, die in einem Bild angezeigt werden, und identifiziert jeweils eine Pixelmaske. Details.

Biomedizinische Bildsegmentierung

Biomedizinische Bildsegmentierung

Führt die volumetrische Segmentierung dichter 3D-Bilder für medizinische Anwendungsfälle durch. Details.

Übersetzung (wiederholt)

Übersetzung (wiederholt)

Übersetzt Text aus einer Sprache in eine andere Sprache mithilfe eines rekurrenten neuronalen Netzes (RNN). Details.

Übersetzung (einmalig)

Übersetzung (einmalig)

Übersetzt Text aus einer Sprache in eine andere über ein vorwärtsgerichtetes neuronales Netzwerk. Details.

Automatische Spracherkennung (Automatic Speech Recognition, ASR)

Automatische Spracherkennung (Automatic Speech Recognition, ASR)

Erkennt und transkribiert Audio in Echtzeit. Details.

Verarbeitung natürlicher Sprache (NLP)

Verarbeitung natürlicher Sprache (NLP)

Versteht Text, indem die Beziehung zwischen verschiedenen Wörtern in einem Textblock verwendet wird. Ermöglicht die Beantwortung von Fragen, die Satzparaphrasierung und viele andere sprachbezogene Anwendungsfälle. Details.

Empfehlung

Empfehlung

Bietet personalisierte Ergebnisse in Diensten für Benutzer, wie Social-Media- oder E-Commerce-Websites, indem Interaktionen zwischen Nutzern und Serviceartikeln, wie beispielsweise Produkte oder Anzeigen, analysiert werden. Details.

Bestärkendes Lernen

Bestärkendes Lernen

Bewertet verschiedene mögliche Aktionen zur Maximierung des Nutzens mithilfe des Strategiespiels Go, das in einem 19 x 19-Raster gespielt wird. Details.

NVIDIA – MLPerf-Benchmarkergebnisse

  • Training

    Training

  • Inferenz

    Inferenz

Die NVIDIA A100 Tensor Core-GPU und der NVIDIA DGX SuperPOD haben alle 16 Trainingsleistungsrekorde sowohl bei Pro-Chip- als auch bei At-Scale-Workloads für kommerziell erhältliche Systeme aufgestellt. Diese bahnbrechende Leistung resultiert aus der engen Integration von Hardware-, Software- und System-Level-Technologien. Die kontinuierlichen Investitionen von NVIDIA in Full-Stack-Leistung haben zu einer Verbesserung des Durchsatzes gegenüber den vier MLPerf-Einreichungen geführt.

MEHR ALS DIE 6,5-FACHE LEISTUNG IN 2,5 JAHREN VON MLPERF

NVIDIAs Innovationen in den gesamten Technologie-Stack sorgen fortlaufend für Verbesserungen

MEHR ALS DIE 6,5-FACHE LEISTUNG IN 2,5 JAHREN VON MLPERF

NVIDIA STELLT ALLE 16 REKORDE AUF

Für handelsübliche Lösungen

Die NVIDIA KI-Plattform stellte alle 8 Rekorde pro Beschleuniger mit NVIDIA A100-GPUs in OEM-Servern sowie NVIDIA DGX auf. Dies demonstriert die Stärke der durchgängigen NVIDIA-Hardware- und Software-Stacks, mit denen Computerhersteller Rekordergebnisse auf MLPerf liefern können.

  Rekorde auf höchstem Niveau (Min.) Rekorde pro Beschleuniger (Min.)
Empfehlung (DLRM) 0,99 (DGX SuperPOD) 15,3 (A100)
NLP (BERT) 0,32 (DGX SuperPOD) 169,2 (A100)
Spracherkennung – rekurrent (RNN-T) 2,75 (DGX SuperPOD) 309,6 (A100)
Objekterkennung – schwer (Mask R-CNN) 3,95 (DGX SuperPOD) 400,2 (A100)
Objekterkennung – schwer (SSD) 0,48 (DGX SuperPOD) 66,5 (A100)
Bildklassifizierung (ResNet-50 v1.5) 0,4 (DGX SuperPOD) 219,0 (A100)
Bildsegmentierung (3D-Unet) 3 (DGX SuperPOD) 229,1 (A100)
Bestärkendes Lernen (MiniGo) 15,53 (DGX SuperPOD) 2156,3 (A100)

NVIDIA erzielte herausragende Leistungsergebnisse in allen fünf Szenarien (Server und Offline im Rechenzentrum sowie Single-Stream, Multi-Stream und Offline in der Peripherie). Darüber hinaus erreichten wir in allen Benchmarktests die beste Leistung pro Beschleuniger im Vergleich aller getesteten Produkte. Diese Ergebnisse bestätigen nicht nur NVIDIAs führende Position im Bereich Inferenz, sondern belegen auch die Vielseitigkeit unserer Inferenzplattform.

Offlineszenario für Rechenzentrum und Edge (einzelne GPU)

  NVIDIA A100 (x86-CPU)
(Inferenzen/Sekunde)
NVIDIA A100 (Arm-CPU)
(Inferenzen/Sekunde)
NVIDIA A30
(Inferenzen/Sekunde)
NVIDIA® Jetson Xavier
(Max. Inferenzen/Abfrage)
DLRM
(Empfohlen)
302.680 274.433 135.450 k. A.*
BERT
(Verarbeitung natürlicher Sprache)
3.538 3.151 1.673 97
ResNet-50 v1.5
(Bildklassifikation)
39.190 36.436 18.647 2.039
ResNet-34
(Single-Shot Detector groß)
981 901 474 55
RNN-T
(Spracherkennung)
13.365 12.640 6.574 416
3D U-Net
(Medizinische Bildgebung)
61 57 30 3

Die Technologie hinter den Ergebnissen

Da KI ein so komplexer Bereich ist, ist eine enge Integration aller Aspekte der Plattform vonnöten. Wie die Benchmarks von MLPerf zeigen, liefert die KI-Plattform von NVIDIA erstklassige Leistung mit dem weltweit fortschrittlichsten Grafikprozessor, leistungsfähigen und skalierbaren Verbindungstechnologien sowie modernster Software – eine durchgehende Lösung, die im Rechenzentrum, in der Cloud oder in der Peripherie mit beeindruckenden Ergebnissen eingesetzt werden kann.

Optimierte Software zur Beschleunigung von KI-Workflows

Optimierte Software zur Beschleunigung von KI-Workflows

Als wesentlicher Bestandteil der NVIDIA-Plattform und der MLPerf-Trainings- sowie Inferenzergebnisse ist NGC eine Drehscheibe für GPU-optimierte KI-, High-Performance-Computing (HPC)- und Datenanalysesoftware, die End-to-End-Workflows vereinfacht und beschleunigt. Mit über 150 Containern auf Enterprise-Ebene, einschließlich Workloads für Gesprächs-KI- und Empfehlungssysteme, über 100 Modellen und branchenspezifischen SDKs, die lokal, in der Cloud oder in der Peripherie bereitgestellt werden können, ermöglicht es NGC Datenwissenschaftlern, Forschern und Entwicklern, erstklassige Lösungen zu entwickeln, Erkenntnisse zu sammeln und Geschäftsnutzen schneller als je zuvor zu liefern.

Erstklassige KI-Infrastruktur

Um weltweit führende Ergebnisse über Trainings und Inferenzen hinweg zu erzielen, bedarf es einer Infrastruktur, die speziell für die komplexesten KI-Herausforderungen der Welt entwickelt wurde. Die NVIDIA KI-Plattform nutzt die Leistung der NVIDIA A100 Tensor Core-GPU, der NVIDIA A30 Tensor Core-GPU, der NVIDIA A10 Tensor Core-GPU sowie Skalierbarkeit und Flexibilität der NVIDIA-Verbindungstechnologien – NVIDIA NVLink®, NVIDIA NVSwitch und NVIDIA ConnectX®-6-VPI. Diese sind das Herzstück der NVIDIA DGX A100, der Engine hinter unserer Benchmark-Leistung.

DGX-Systeme von NVIDIA zeichnen sich aus durch Skalierbarkeit, schnelle Bereitstellung und unglaubliche Rechenleistung, die es jedem Unternehmen ermöglichen, eine erstklassige KI-Infrastruktur aufzubauen.

Erstklassige KI-Infrastruktur

Erfahren Sie mehr über die Leistung unserer Rechenzentrumsprodukte bei Training und Inferenz.