Optimieren Sie die Leistung von KI-Workloads in der KI-Infrastruktur von NVIDIA.
Überblick
NVIDIA Performance Benchmarking ist eine Suite von Tools, Rezepten und Diensten, die das Rätselraten bei der Messung der Leistung von KI-Workloads und -Infrastrukturen überflüssig macht. NVIDIA Performance Benchmarking bietet eine standardisierte und objektive Methode zur Messung der Leistung über verschiedene Plattformen hinweg, was für die Optimierung von KI-Workloads und die Beschleunigung von Ergebnissen unerlässlich ist.
Optimieren Sie die Leistung von KI-Workloads auf jeder durch NVIDIA beschleunigten Infrastruktur mit der Suite von Tools, Diensten und Rezepten von NVIDIA Performance Benchmarking.
Mit Performance Explorer können Benutzer die ideale GPU-Anzahl ermitteln, mit der sowohl die Gesamttrainingszeit als auch die Kosten minimiert werden. Das Ziel besteht darin, die richtige Anzahl von GPUs für einen bestimmten Workload zu ermitteln, um den Durchsatz zu maximieren und die Kosten zu minimieren – projekt- und teamübergreifend.
Holen Sie das Beste aus Ihren KI-Workload-Umgebungen heraus und erschließen Sie das volle Potenzial Ihrer KI-Infrastruktur mit NVIDIA Performance Benchmarking.
Ermitteln Sie anhand von Echtzeit- und End-to-End-Leistungsdaten, welche Plattform die schnellste Trainingszeit oder gewünschte GPU-Skalierung zu welchen Kosten bietet.
Optimieren Sie Ihre KI-Workloads gemäß End-to-End-Metriken, die auf die Leistung moderner generativer KI-Anwendungen zugeschnitten sind.
Bewerten Sie nicht nur die GPUs, sondern auch Infrastruktursoftware, Cloud-Plattformen und Anwendungskonfigurationen, um eine ganzheitliche Sicht der Workload-Leistung zu erhalten.
Erhalten Sie eine standardisierte und objektive Methode zur Messung der Plattformleistung und verstehen Sie die erwartete Leistung für bestimmte Workloads oder Anwendungsfälle.
In MLPerf Inference v6.0 (April 2026) boten Systeme, die von NVIDIA Blackwell Ultra-GPUs (GB300 NVL72) unterstützt wurden, den höchsten Durchsatz in der breitesten Palette von Modellen und Szenarien. Auf DeepSeek-R1 lieferte GB300 NVL72 2,5 Millionen Token pro Sekunde – ein bis zu 2,7-mal höherer Token-Durchsatz im Vergleich zu den ersten GB300 NVL72-Ergebnissen nur sechs Monate zuvor, was auf Software-Updates für TensorRT-LLM zurückzuführen ist.
Bei der Messung der Kosteneffizienz von KI-Inferenz ist es wichtig, über die Rechenpreise oder FLOPs pro Dollar hinauszublicken, da diese Kennzahlen ein unvollständiges Bild liefern. Die wichtigste Metrik für die Kosteneffizienz von KI-Inferenz ist Kosten pro Token oder das tatsächlich bereitgestellte Preis-Leistungs-Verhältnis, insbesondere bei MoE- und Reasoning-Modellen. NVIDIA GB300 NVL72 bietet KI-Inferenz für 0,123 USD pro Million Token bei 116 TPS/Benutzerinteraktivität mit NVIDIA Dynamo und TensorRT™-LLM – den niedrigsten Kosten pro Token unter den führenden Plattformen, wie die SemiAnalysis InferenceX-Benchmarks vom April 2026 zeigen.
NVIDIA Blackwell B200 erzielt 0,02 USD pro Million Token auf GPT-OSS-120B mit TensorRT-LLM laut SemiAnalysis InferenceX-Benchmarks vom April 2026 – eine fünffache Verbesserung gegenüber den Einführungskosten von 0,11 USD/Million Token, die allein durch die Softwareoptimierung erreicht wird.
NVIDIA B300 (Blackwell Ultra) wurde entwickelt, um die erhöhten Anforderungen an Rechen- und Speicherkapazität durch KI-Inferenz mit langen Kontexten und logischem Schlussfolgern zu erfüllen. Mit einer 1,5-fachen Steigerung der dichten FP4-Leistung, der 2-fachen Attention-Leistung und einem 1,5-mal größeren HBM-Arbeitsspeicher im Vergleich zum NVIDIA B200 ist der B300 in der Lage, den Durchsatz bei KI-Schlussfolgerungen für die größten Kontextlängen zu steigern. GB300 NVL72 bietet KI-Inferenz für 0,123 US-Dollar pro Million Token bei 116 TPS/Benutzerinteraktivität mit NVIDIA Dynamo und TensorRT-LLM – die niedrigsten Kosten pro Token unter den führenden Plattformen, laut SemiAnalysis InferenceX-Benchmarks vom April 2026.
Es gibt einige unabhängige KI-Inferenz-Benchmarks von Drittanbietern, die heute in der Branche häufig verwendet werden. MLPerf Inference ist der Branchenstandard-Benchmark von MLCommons, der Durchsatz und Latenz in standardisierten Workloads misst. InferenceX von SemiAnalysis ist der erste unabhängige Benchmark für die Messung der Gesamtkosten für die Rechenleistung in verschiedenen Modellen und realen Szenarien. InferenceX v2 erweitert dies, um ein Benchmarking der vollständigen Pareto-Front-Kurve durchzuführen. Mit Stand von April 2026 ist NVIDIA Blackwell Ultra (GB300 NVL72) in allen drei Benchmark-Suiten führend.
Erzielen Sie in Partnerschaft mit NVIDIA eine optimale KI-Workload-Leistung pro TCO mit datengestützten validierten Benchmarks.
Greifen Sie auf die technische Dokumentation für modulare Software zu, die Partnern beim Betrieb der KI-Infrastruktur und der Bereitstellung von KI-Diensten hilft.