Lösungen für KI-Inferenz

NVIDIA-Inferenzplattform

Unterstützung der leistungsstärksten, effizientesten und profitabelsten KI-Fabriken.

Erste Schritte

Serie anzeigen | Leistungs-Benchmarks | Für Entwickler

Überblick
Leistung
Vorteile
ROI
Plattform
Erfolgsgeschichten
Ressourcen
Nächste Schritte

Überblick
Leistung
Vorteile
ROI
Plattform
Erfolgsgeschichten
Ressourcen
Nächste Schritte

Erste Schritte

Überblick

Wie können Sie KI auf intelligente Weise und zu den geringsten Kosten skalieren?

KI-Inferenz – die Art und Weise, wie wir KI durch Chatbots, Copilots und kreative Tools erleben – skaliert mit einem doppelt exponentiellen Tempo. Die Akzeptanz durch die Benutzer nimmt immer mehr zu, während die Anzahl der KI-Token, die pro Interaktion generiert werden, aufgrund des Antriebs von agentischen Workflows, langfristigem Schlussfolgern und MoE-Modellen (Mixture-of-Experts) rasant steigt.

Um Inferenz in diesem großen Maßstab zu ermöglichen, bietet NVIDIA eine Architektur im Rechenzentrumsmaßstab mit einem jährlichen Rhythmus. Unser extremes Hardware- und Software-Codesign ermöglicht erhebliche Leistungssprünge, senkt die Kosten pro Token und ermöglicht mehr Umsatz und Gewinn.

NVIDIA Blackwell NVL72 bietet eine mehr als zehnmal bessere Inferenzleistung im Vergleich zu NVIDIA H200 bei einer Vielzahl von MoE-Modellen, einschließlich Kimi K2 Thinking, DeepSeek-R1 und Mistral Large 3.

Extremes Codesign liefert mit NVLink ein Zehntel der Kosten für Mixture of Experts (MoE)

Durch die Verarbeitung von zehnmal so vielen Token mit demselben Zeit- und Energieaufwand sinken die Kosten pro Token drastisch, sodass MoEs in alltägliche Produkte integriert werden können. So wird Frontier Intelligence zur gängigen Praxis.

Blogbeitrag lesen

NVIDIA Blackwell setzt Maßstäbe für die Rentabilität von Inferenz.

NVIDIA Blackwell hat in den neuen Benchmarks von SemiAnalysis InferenceMAX™ v1 herausragende Ergebnisse erzielt und die höchste KI-Inferenzleistung sowie beste Gesamteffizienz erzielt. NVIDIA Blackwell ermöglicht die höchsten Umsätze für eine KI-Fabrik: Eine Investition in Höhe von 5 Millionen US-Dollar in GB200 NVL72 generiert einen Token-Umsatz in Höhe von 75 Millionen US-Dollar – eine 15-fache Kapitalrendite.

Entdecken Sie wichtige Ergebnisse

NVIDIA Blackwell NVL72 für die niedrigsten Kosten pro Token

NVIDIA Blackwell ermöglicht die höchsten Umsätze im Bereich von KI-Fabriken, einschließlich eines bis zu 15-fachen ROI. Dies ist das Ergebnis eines extremen Codesigns von NVIDIA Blackwell, NVLink™ und NVLin-Switch für Skalierung, NVFP4 für Genauigkeit bei niedriger Präzision und NVIDIA Dynamo und TensorRT™ LLM für Geschwindigkeit und Flexibilität – sowie die Entwicklung mit den Community-Frameworks SGLang, vLLM und mehr.

Eine Investition in Höhe von 5 Millionen US-Dollar in GB200 NVL72 kann einen Token-Umsatz in Höhe von 75 Millionen US-Dollar generieren

Zum Vergrößern des Bildes klicken

Die Ergebnisse von DeepSeek-R1 8K/1K zeigen einen 15-fachen Leistungsvorteil und Umsatzpotenzial für NVIDIA Blackwell GB200 NVL72 gegenüber Hopper H200.

Vorteile

Entdecken Sie den Think SMART Advantage

Die NVIDIA-Inferenzplattform bietet eine Reihe von Vorteilen, die im Think SMART-Framework festgehalten sind – von Skalierbarkeit und Effizienz, multidimensionaler Leistung, Architektur und Software-Codesign bis hin zu ROI-Leistung und einem umfangreichen Technologie-Ökosystem.

Leistung maximieren

NVIDIA Blackwell bietet branchenführende Leistung in verschiedensten Anwendungsfällen und balanciert dabei effektiv mehrere Dimensionen: Durchsatz, Latenz, Intelligenz, Kosten und Energieeffizienz. Für intelligente Mixture-of-Experts-Modelle wie Kimi K2 Thinking, DeepSeek-R1 und Mistral Large 3 können Benutzer auf NVIDIA Blackwell NVL72 im Vergleich zu H200 eine bis zu zehnfach schnellere Leistung erzielen.

Niedrigere Kosten pro Token

NVIDIA Blackwell NVL72 liefert ein Zehntel der Kosten pro Token für MoE-Modelle. Leistung ist der größte Hebel, um die Kosten pro Token zu senken und den KI-Umsatz zu maximieren. Durch die Verarbeitung von zehnmal so vielen Token mit demselben Zeit- und Energieaufwand sinken die Kosten pro Token drastisch, sodass MoEs in alltägliche Produkte integriert werden können.

Effizient skalieren

Mit Full-Stack-Innovationen in den Bereichen Rechenleistung, Netzwerke und Software ermöglicht NVIDIA Ihnen die effiziente Skalierung komplexer KI-Bereitstellungen.

Einfach integrieren

NVIDIA bietet eine bewährte Plattform mit einer Installationsbasis von hunderten Millionen CUDA®-GPUs, 7 Millionen Entwicklern, Beiträgen zu über 1.000 Open-Source-Projekten und tiefen Framework-Integrationen mit Frameworks wie PyTorch, JAX, SGLang, vLLM und mehr

ROI

Leistung treibt Rentabilität voran

Je schneller Ihr System Token generieren und gleichzeitig eine nahtlose Benutzererfahrung bieten kann, desto mehr Umsatz können Sie mit gleichem Energieverbrauch und Kostenaufwand erzielen. NVIDIA Blackwell generiert 75 Millionen US-Dollar Umsatz für jede Investition von 5 Millionen US-Dollar – eine 15-fache Investitionsrendite.

Mehr erfahren

Plattform

Extremes Hardware-Software-Codesign

Leistungsstarke Hardware ohne intelligente Orchestrierung verschwendet Potenzial; großartige Software ohne schnelle Hardware führt zu einer langsamen Inferenzleistung. Die Full-Stack-Innovation von NVIDIA in den Bereichen Rechenleistung, Netzwerke und Software ermöglicht höchste Leistung bei verschiedenen Workloads. Entdecken Sie einige der wichtigsten Hardware- und Softwareinnovationen von NVIDIA.

NVIDIA Grace Blackwell NVL72

NVIDIA GB200 NVL72 bietet 1,4 exaFLOPS in einem einzigen Rack und vereint 72 NVIDIA Blackwell-GPUs mit NVIDIA NVLink™ und NVSwitch™, um enorme Reasoning-Modelle im großen Maßstab bereitzustellen und gleichzeitig die Token-Kosten um ein Zehntel zu reduzieren

Erfahren Sie mehr über GB200 NVL72

NVIDIA Blackwell

Der NVIDIA HGX™ B200 basiert auf der NVIDIA Blackwell-Architektur und verfügt über 8 NVIDIA Blackwell-GPUs, die über einen ultraschnellen NVSwitch verbunden sind. Dies bietet eine hohe KI-Inferenzleistung und Energieeffizienz für KI-Inferenz im großen Maßstab.

Erfahren Sie mehr über die NVIDIA B200 HGX-Plattform

NVIDIA Dynamo

NVIDIA Dynamo ist ein verteiltes Inferenz-Serving-Framework, um Modelle in Multi-Node-Umgebungen im KI-Fabrikmaßstab bereitzustellen. Es optimiert die verteilte Bereitstellung durch Disaggregation der Inferenz, Optimierung des Routing und Erweiterung des Speichers durch Daten-Caching auf kostengünstige Datenspeicherstufen.

Erfahren Sie mehr über NVIDIA Dynamo

TensorRT-LLM

TensorRT™-LLM ist eine Open-Source-Bibliothek für leistungsstarke Echtzeit-LLM-Inferenz auf NVIDIA-GPUs. Mit einer modularen Python-Runtime, PyTorch-nativem Authoring und einer stabilen Produktions-API wurde sie optimiert, um den Durchsatz zu maximieren, die Kosten zu minimieren und ein schnelles Benutzererlebnis zu ermöglichen.

Erfahren Sie mehr über TensorRT-LLM

Hardware

Lernen Sie unsere KI-Inferenz-Infrastruktur kennen

Profitieren Sie von beispielloser KI-Leistung mit der NVIDIA KI-Inferenzsoftware, die für NVIDIA-beschleunigte Infrastruktur optimiert ist. Die Technologien von NVIDIA Blackwell Ultra, H200 GPU, NVIDIA RTX PRO™ 6000 Blackwell Server-Edition und NVIDIA RTX™ sorgen für außergewöhnliche Geschwindigkeit und Effizienz für KI-Inferenz-Workloads in Rechenzentren, Clouds und Workstations.

NVIDIA GB300 NVL72

Die Nachfrage nach KI-Inferenz steigt – und NVIDIA Blackwell Ultra wurde entwickelt, um den heutigen Anforderungen gerecht zu werden. Mit einer Leistung von 1,4 ExaFLOPS in einem einzigen Rack vereint die NVIDIA GB300 NVL72 72 NVIDIA Blackwell Ultra-GPUs mit NVIDIA NVLink™ und NVFP4, um massive Modelle mit höchster Effizienz zu betreiben. Dadurch wird die Produktionsleistung in der KI-Fabrik um das 50-Fache gesteigert, während die Token-Kosten gesenkt und Echtzeit-Schlussfolgerungen in großem Maßstab beschleunigt werden.

Erfahren Sie mehr über GB300 NVL72

NVIDIA H200 GPU

Die NVIDIA H200 GPU – Teil der NVIDIA Hopper-Plattform – optimiert generative KI- und HPC-Workloads (High-Performance-Computing) mit bahnbrechenden Leistungen und Speicherkapazitäten. Als erste GPU mit HBM3e unterstützt der größere und schnellere Speicher der H200 die Beschleunigung von generativer KI und großen Sprachmodellen (LLMs) und gleichzeitig das wissenschaftliche Rechnen für HPC-Workloads.

Mehr über H200

NVIDIA RTX PRO 6000 Blackwell Server-Edition

Die RTX PRO 6000 Blackwell Server-Edition-GPU bietet eine superstarke Inferenzleistung für eine Vielzahl von KI-Modellen und erzielt eine bis zu 5-mal höhere Leistung für unternehmensweite und generative KI-Anwendungen im Vergleich zur NVIDIA L40S der vorherigen Generation. NVIDIA RTX PRO™-Server, die bei globalen Systempartnern erhältlich sind, bringen die Leistung und Effizienz der Blackwell-Architektur in jedes Rechenzentrum von Unternehmen.

Weitere Informationen zur RTX PRO 6000 Blackwell Server-Edition

NVIDIA RTX PRO 6000 Blackwell Workstation-Edition

Die RTX PRO 6000 Blackwell Workstation-Edition ist die erste Desktop-GPU mit 96 GB GPU-Speicher. Die Leistung der Blackwell GPU-Architektur in Kombination mit dem großen GPU-Speicher und dem NVIDIA AI-Software-Stack ermöglicht es RTX PRO-gestützten Workstations, außergewöhnliche Beschleunigung für generative KI und LLM-Inferenz direkt auf dem Desktop zu liefern.

Erfahren Sie mehr über die RTX PRO 6000 Blackwell Workstation-Edition

Die Performance Paretos entschlüsseln

Haben Sie sich jemals gefragt, wie sich komplexe KI-Kompromisse in realen Ergebnissen niederschlagen? Erkunden Sie verschiedene Punkte entlang der nachfolgenden Leistungskurven, um direkt zu sehen, wie das extreme Hardware- und Software-Codesign NVIDIA Blackwell Ultra zur leistungsstärksten, effizientesten und wirtschaftlichsten Wahl macht.

TPS/Benutzer

–

TPS / MW

–

Simuliertes Chat-Erlebnis

DeepSeek R1 ISL = 32K, OSL = 8K, GB300 NVL72 mit FP4 Dynamo Disaggregation. H100 mit FP8-In-Flight-Batching. Änderungen bei der Leistung vorbehalten.

Möchten Sie wissen, wie sich jede einzelne Konfiguration auf reale Benutzererlebnisse auswirkt? Entdecken Sie die Kurven allein oder mit Anleitung von TJ, indem Sie auf „Mit TJ entdecken“ klicken, und sehen Sie, wie sie im simulierten Chat auf der rechten Seite zum Leben erweckt werden.

Entdecken Sie mehr mit NVIDIA Dynamo AI Configurator

Erfolgsgeschichten

Wie Branchenführer mit KI-Inferenz Innovationen vorantreiben

Weitere Kundengeschichten

Amdocs

Leistung der generativen KI verstärken und Kosten senken

Lesen Sie, wie Amdocs mit NVIDIA DGX™ Cloud und NVIDIA NIM-Inferenz-Microservices amAIz, eine fachspezifische Generative-KI-Plattform für Telekommunikationsunternehmen, entwickelt hat, um die Latenz zu verbessern, Genauigkeit zu erhöhen und Kosten zu senken.

Anwendungsbeispiel lesen

Snapchat

Verbesserter Modeeinkauf durch KI

Erfahren Sie, wie Snapchat das Einkaufserlebnis für Kleidung und die optische Zeichenerkennung auch von Emojis mit Triton Inference Server verbessert hat, um sein Geschäft zu skalieren, Kosten zu reduzieren und die Zeit bis zum Produktivbetrieb zu verkürzen.

Anwendungsbeispiel lesen

Amazon

Steigerung der Kundenzufriedenheit

Erfahren Sie, wie Amazon die Kundenzufriedenheit dank 5-mal so schneller Inferenz mit TensorRT erhöhen konnte.

Anwendungsbeispiel lesen

Ressourcen

Aktuelle Ressourcen für KI-Inferenz

Blogs
Veranstaltungen
Schulungen
Videos

Mehr Veranstaltungen anzeigen

Erste Schritte mit Inferenz auf NVIDIA LaunchPad

Haben Sie schon ein KI-Projekt? Bewerben Sie sich, um in einer Umgebung für das Testen und Prototyping Ihrer KI-Lösungen praktische Erfahrungen zu sammeln.

Jetzt bewerben

Lernpfade für generative KI und LLM erkunden

Verbessern Sie Ihre technischen Fähigkeiten in generativer KI und großen Sprachmodellen mit unseren umfassenden Lernpfaden.

Jetzt kennenlernen

Einstieg in die Inferenz mit generativer KI auf NVIDIA LaunchPad

Kommen Sie durch direkten, kurzfristigen Zugang zu NVIDIA NIM-Inferenz-Microservices und KI-Modellen schneller bei Ihrer Arbeit mit generativer KI voran – kostenlos.

Erste Schritte

Mehr Schulungen anzeigen

Mehr Videos ansehen

Nächste Schritte

Sind Sie bereit, loszulegen?

Finden Sie alles, was Sie für die Entwicklung eigener KI-Anwendungen brauchen, u. a. die neueste Dokumentation, Tutorials, technische Blogs und mehr.

Mit der Entwicklung starten Mit der Entwicklung beginnen

Finden Sie die passende Hardware für Ihre Inferenz-Workloads

NVIDIA-Lösungen für Rechenzentren sind über ausgewählte Partner des NVIDIA Partner Network (NPN) erhältlich. Entdecken Sie flexible und erschwingliche Optionen für den Zugriff auf die neuesten NVIDIA-Rechenzentrumstechnologien über unser Partnernetzwerk.

NVIDIA Marketplace durchsuchen

Erhalten Sie aktuelle Informationen zu NVIDIA KI-Inferenz

Melden Sie sich an, um keine aktuellen Neuheiten und Updates und mehr zum Thema KI-Inferenz von NVIDIA mehr zu verpassen.

Bleiben Sie auf dem Laufenden

TPS/Benutzer

–

TPS/MW

–

Simuliertes Chat-Erlebnis

NVIDIA-Inferenzplattform

Überblick

Wie können Sie KI auf intelligente Weise und zu den geringsten Kosten skalieren?

Extremes Codesign liefert mit NVLink ein Zehntel der Kosten für Mixture of Experts (MoE)

NVIDIA Blackwell setzt Maßstäbe für die Rentabilität von Inferenz.

NVIDIA Blackwell NVL72 für die niedrigsten Kosten pro Token

Eine Investition in Höhe von 5 Millionen US-Dollar in GB200 NVL72 kann einen Token-Umsatz in Höhe von 75 Millionen US-Dollar generieren

Vorteile

Entdecken Sie den Think SMART Advantage

Leistung maximieren

Niedrigere Kosten pro Token

Effizient skalieren

Einfach integrieren

ROI

Plattform

Extremes Hardware-Software-Codesign

NVIDIA Grace Blackwell NVL72

NVIDIA Blackwell

NVIDIA Dynamo

TensorRT-LLM

Hardware

Lernen Sie unsere KI-Inferenz-Infrastruktur kennen

NVIDIA GB300 NVL72

NVIDIA H200 GPU

NVIDIA RTX PRO 6000 Blackwell Server-Edition

NVIDIA RTX PRO 6000 Blackwell Workstation-Edition

Die Performance Paretos entschlüsseln

Erfolgsgeschichten

Wie Branchenführer mit KI-Inferenz Innovationen vorantreiben

Leistung der generativen KI verstärken und Kosten senken

Verbesserter Modeeinkauf durch KI

Steigerung der Kundenzufriedenheit

Ressourcen

Aktuelle Ressourcen für KI-Inferenz

Erste Schritte mit Inferenz auf NVIDIA LaunchPad

Lernpfade für generative KI und LLM erkunden

Einstieg in die Inferenz mit generativer KI auf NVIDIA LaunchPad

Nächste Schritte

Sind Sie bereit, loszulegen?

Finden Sie die passende Hardware für Ihre Inferenz-Workloads

Erhalten Sie aktuelle Informationen zu NVIDIA KI-Inferenz

Erfahren Sie aktuelle Neuheiten von NVIDIA zu KI-Inferenz