KI-Inferenz

NVIDIA Dynamo

Skalieren und Bereitstellen von KI-Inferenz – und zwar schnell.

Überblick

Das Betriebssystem der KI

Die effiziente Bereitstellung heutiger Frontier-Sprachmodelle erfordert häufig Ressourcen, die die Kapazität einer einzelnen GPU – oder sogar eines gesamten Knotens – überschreiten. Dies macht eine verteilte Multi-Knoten-Bereitstellung für KI-Inferenz unerlässlich.

NVIDIA Dynamo ist ein quelloffenes, verteiltes Inferenz-Serving-Framework, das für die Bereitstellung von Modellen in Multi-Knoten-Umgebungen auf Rechenzentrumsniveau entwickelt wurde. Es unterstützt Open-Source-Inferenz-Engines – darunter SGLang, NVIDIA TensorRT™ LLM und vLLM – und vereinfacht die Komplexität der verteilten Bereitstellung durch Disaggregation von Inferenzphasen über verschiedene GPUs, intelligente Weiterleitung von Anfragen an die entsprechende GPU, um redundante Berechnungen zu vermeiden, und Erweiterung des GPU-Speichers durch Daten-Caching auf kostengünstige Datenspeicherstufen.

NVIDIA NIM™Microservices werden NVIDIA Dynamo-Funktionen enthalten und eine schnelle und einfache Bereitstellungsoption bieten. NVIDIA Dynamo wird auch mit NVIDIA AI Enterprise unterstützt und verfügbar sein.

Was ist verteilte Inferenz?

Verteilte Inferenz nennt man die Aufteilung der KI-Modell-Inferenz auf mehrere Computereinheiten oder Knoten, um den Durchsatz durch Parallelisierung der Verarbeitung zu maximieren. 

Dieses Konzept ermöglicht durch die Verteilung von Workloads auf GPUs oder die Cloud-Infrastruktur eine effiziente Skalierung für große KI-Anwendungen wie generative KI. Verteilte Inferenz verbessert die Gesamtleistung und die Auslastung der Ressourcen dadurch, dass die Benutzer die Latenz und den Durchsatz den Erfordernissen des jeweiligen Workloads entsprechend optimieren können.

Ein genauerer Blick auf NVIDIA Dynamo

Verteiltes Inferenzframework mit geringer Latenz für die Skalierung von Reasoning-KI-Modellen.

Unabhängige Benchmarks zeigen, dass NVIDIA GB300 NVL72 in Kombination mit NVIDIA Dynamo den Durchsatz von MoE-Modellen (Mixture-of-Expert) um das bis zu 50-Fache im Vergleich zu auf NVIDIA Hopper™ basierenden Systemen verbessert.

Das GB300 NVL72 verbindet 72 GPUs über das Highspeed-NVIDIA-NVLink™ und ermöglicht eine Expertenkommunikation mit geringer Latenz, die für MoE-Reasoning-Modelle entscheidend ist. NVIDIA Dynamo verbessert die Effizienz durch disaggregierte Inferenz und teilt Prefill- und Dekodierungsphasen über Knoten für eine unabhängige Optimierung auf. Zusammen bilden GB300 NVL72 und NVIDIA Dynamo einen leistungsstarken Stack, der für umfangreiche MoE-Inferenz optimiert ist.

Merkmale

Funktionen von NVIDIA Dynamo

Entkoppelte Verarbeitung

Trennt die Kontext- und Generierungsphasen großer Sprachmodelle (LLM) über verschiedene GPUs hinweg und ermöglicht eine unabhängige GPU-Zuweisung und Optimierung, um die pro GPU bearbeiteten Anfragen zu erhöhen.

LLM-Aware Router

Leitet den Inferenz-Datenverkehr effizient weiter, wodurch die kostspielige Neuberechnung von sich wiederholenden oder überlappenden Abfragen minimiert wird, um die Rechenressourcen zu schonen und gleichzeitig für eine ausgewogene Lastverteilung auf große GPU-Pools zu sorgen.

KV-Caching auf Datenspeicher

Verlagert den KV-Cache sofort aus dem begrenzten GPU-Speicher auf skalierbaren, kosteneffizienten Datenspeicher wie CPU-RAM, lokale SSDs oder Netzwerkspeicher.

Topologie-optimiertes Kubernetes Serving (Grove)

Ermöglicht eine effiziente Skalierung und deklarative Startreihenfolge von voneinander abhängigen KI-Inferenzkomponenten in Setups mit einem und mehreren Knoten mithilfe einer einheitlichen benutzerdefinierten Kubernetes-Ressource.

GPU Planner

Überwacht die GPU-Kapazität in Umgebungen für verteilte Inferenz und weist GPU-Prozesse in den Kontext- und Generierungsphasen dynamisch zu, um Engpässe zu beseitigen und die Leistung zu optimieren.

Kommunikationsbibliothek mit geringer Latenz (NIXL)

Beschleunigt den Datentransport in Umgebungen für verteilte Inferenz und vereinfacht gleichzeitig die ansonsten aufwändige Übertragung über unterschiedliche Hardware wie GPUs, CPUs, Netzwerke und Massenspeicher.

AIConfigurator

Beseitigt das Rätselraten aus disaggregierten Serving-Clustern, indem es optimale Prefill- und Dekodierungskonfigurationen sowie parallele Modellstrategien empfiehlt, die auf das Modell, das GPU-Budget und die SLOs zugeschnitten sind.

AIPerf

Benchmarken Sie die Leistung generativer KI-Modelle in jeder Inferenzlösung mit detaillierten Metriken über die Befehlszeile und detaillierten Leistungsberichten.

Beschleunigte verteilte Inferenz

NVIDIA Dynamo ist vollständig Open Source, was Ihnen volle Transparenz und Flexibilität bietet. Setzen Sie NVIDIA Dynamo ein, tragen Sie zu seiner Weiterentwicklung bei und integrieren Sie Dynamo nahtlos in Ihre vorhandene Lösung.

 Sehen Sie es sich auf GitHub an und werden Sie Teil der Community!

Vorteile

Vorteile von NVIDIA Dynamo

Nahtlose Skalierung von einer einzelnen GPU auf Tausende GPUs

Optimieren und automatisieren Sie die Einrichtung von GPU-Clustern mit vorgefertigten, einfach zu implementierenden Tools, und ermöglichen Sie die dynamische automatische Skalierung mit LLM-spezifischen Echtzeit-Kennwerten, um eine Über- oder Unterdimensionierung von GPU-Ressourcen zu vermeiden.

Erhöhung der Inferenz-Verarbeitungskapazität bei gleichzeitiger Kostenreduzierung

Nutzen Sie fortschrittliche LLM-Inferenz-Serving-Optimierungen wie disaggregiertes Serving und topologiebewusstes Autoskalieren, um die Anzahl der bearbeiteten Inferenzanfragen zu erhöhen, ohne die Benutzererfahrung zu beeinträchtigen.

Machen Sie Ihre KI-Infrastruktur zukunftssicher und vermeiden Sie kostspielige Migrationen

Das offene und modulare Design ermöglicht es Ihnen, ganz einfach die Komponenten für die Inferenz-Verarbeitung auszuwählen, die Ihren individuellen Anforderungen entsprechen, und so die Kompatibilität mit Ihrer bestehenden KI-Struktur sicherzustellen und kostspielige Migrationsprojekte zu vermeiden.

Verkürzen Sie die Zeitspanne bis zur Bereitstellung neuer KI-Modelle im Produktivbetrieb

Die Unterstützung von NVIDIA Dynamo für alle wichtigen Frameworks – darunter NVIDIA TensorRT-LLM, vLLM, SGLang, PyTorch und mehr – stellt sicher, dass Sie neue generative KI-Modelle schnell bereitstellen können, unabhängig von ihrem Backend.

Dynamo-Ökosystempartner

Anwendungsbeispiele

Bereitstellung von KI mit NVIDIA Dynamo

Erfahren Sie, wie Sie mit NVIDIA Dynamo die Innovation vorantreiben können.

Verarbeitung von Reasoning-Modellen

Reasoning-Modelle erzeugen mehr Token, um komplexe Probleme zu lösen, was die Inferenzkosten erhöht. NVIDIA Dynamo optimiert diese Modelle mit Funktionen wie entkoppelter Verarbeitung. Dieser Ansatz unterteilt die Prefill- und Decode-Rechenphasen auf verschiedene GPUs, sodass KI-Inferenzteams jede Phase unabhängig optimieren können. Das führt zu einer besseren Auslastung der Ressourcen, mehr verarbeiteten Abfragen pro GPU und zu geringeren Inferenzkosten. In Kombination mit der NVIDIA GB200 NVL72 steigert NVIDIA Dynamo die Compounding-Leistung um das bis zu 15-Fache.

Kubernetes KI-Skalierung

Wenn KI-Modelle zu groß für einen einzelnen Knoten werden, wird ihre effiziente Verarbeitung zum Problem. Verteilte Inferenz erfordert die Aufteilung von Modellen über mehrere Knoten hinweg, was die Komplexität von Orchestrierung, Skalierung und Kommunikation in Kubernetes-basierten Umgebungen erhöht. Damit diese Knoten – insbesondere bei dynamischen Workloads – als zusammenhängende Einheit funktionieren, bedarf es einer sorgfältigen Verwaltung. NVIDIA Dynamo vereinfacht dies durch den Einsatz von Grove, das Planung, Skalierung und Bereitstellung nahtlos verarbeitet, sodass Sie sich auf die Bereitstellung von KI konzentrieren können und nicht auf die Verwaltung der Infrastruktur.

Skalierbare KI-Agenten

KI-Agenten generieren riesige Mengen an KV-Cache, da sie mit mehreren Modellen – LLMs, Retrieval-Systemen und spezialisierten Tools – in Echtzeit arbeiten. Dieser KV-Cache übersteigt häufig die Kapazität des GPU-Speichers und schafft einen Engpass für Skalierung und Leistung.

Um GPU-Speichereinschränkungen zu umgehen, erweitert das Caching von KV-Daten im Host-Speicher oder externen Datenspeicher die Kapazität, sodass KI-Agenten ohne Einschränkungen skalieren können. NVIDIA Dynamo vereinfacht dies mit dem KV Cache Manager und Integrationen mit Open-Source-Tools wie LMCache und gewährleistet ein effizientes Cache-Management und skalierbare Leistung von KI-Agenten.

Code-Generierung

Die Generierung von Programmcode erfordert oft eine iterative Verfeinerung, um Prompts anzupassen, Anforderungen zu klären oder die Ausgabe basierend auf den Antworten des Modells zu debuggen. Dieses Hin und Her macht es notwendig, den Kontext bei jeder Eingabe des Benutzers neu zu berechnen, was die Inferenzkosten erhöht. NVIDIA Dynamo optimiert diesen Prozess, indem es die Wiederverwendung von Kontext ermöglicht.

Der LLM-fähige Router von NVIDIA Dynamo verwaltet den KV-Cache über Multi-Knoten-GPU-Cluster hinweg intelligent. Er leitet Anfragen basierend auf Cache-Überschneidungen weiter und führt sie GPUs mit dem höchsten Wiederverwendungspotenzial zu. Dies minimiert redundante Berechnung und gewährleistet eine ausgewogene Leistung in umfangreichen Bereitstellungen.

Kundenreferenzen

Was Branchenführer über NVIDIA Dynamo sagen

Cohere

„Die Skalierung hochentwickelter KI-Modelle erfordert eine ausgefeilte Multi-GPU-Zuteilung, nahtlose Koordination und Low-Latency-Communication-Bibliotheken, die Reasoning-Kontexte nahtlos in Arbeits- und Datenspeicher übertragen. Wir gehen davon aus, dass Dynamo uns helfen wird, unseren Unternehmenskunden ein erstklassiges Benutzererlebnis zu bieten.“

Saurabh Baji, Senior Vice President of Engineering bei Cohere

Perplexity-KI

„Wir bearbeiten Hunderte Millionen von Anfragen monatlich und verlassen uns auf die GPUs und Inferenzsoftware von NVIDIA, um die Leistung, Zuverlässigkeit und Skalierbarkeit zu liefern, die unser Unternehmen und unsere Benutzer fordern. Wir freuen uns darauf, Dynamo mit seinen verbesserten verteilten Serving-Funktionen zu nutzen, um die Effizienz des Inferenz-Serving noch zu steigern und die Rechenanforderungen neuer KI-Reasoning-Modelle zu erfüllen.“

Denis Yarats, CTO von Perplexity AI.

Together AI

„Eine kostengünstige Skalierung von Reasoning-Modellen erfordert neue fortgeschrittene Inferenz-Techniken, einschließlich entkoppelter Verarbeitung und kontextsensitiver Weiterleitung. Together AI bietet mithilfe seiner proprietären Inferenz-Engine branchenführende Leistung. Die Offenheit und Modularität von NVIDIA Dynamo wird uns ermöglichen, seine Komponenten nahtlos an unsere Engine anzuschließen, um mehr Abfragen zu verarbeiten und gleichzeitig die Auslastung der Ressourcen zu optimieren – und damit maximalen Nutzen aus unseren Investitionen in beschleunigtes Computing zu ziehen.“

Ce Zhang, CTO von Together AI.

Erfolgsgeschichten

Wie Branchenführer die Bereitstellung von Modellen mit der NVIDIA Dynamo-Plattform verbessern

Anwender

Führende Anwender in allen Branchen

NVIDIA Blackwell Ultra liefert bis zu 50-mal bessere Leistung und 35-mal geringere Kosten für agentische KI

NVIDIA Blackwell Ultra wurde entwickelt, um die nächste Generation der agentischen KI zu beschleunigen und bietet bahnbrechende Inferenzleistung bei deutlich geringeren Kosten. Cloud-Anbieter wie Microsoft, CoreWeave und Oracle Cloud Infrastructure setzen NVIDIA GB300 NVL72-Systeme in großem Maßstab für Anwendungsfälle mit geringer Latenz und langer Kontextdauer ein, wie zum Beispiel agentische Programmierung und Programmierassistenten.

Dies wird durch ein eng abgestimmtes Co-Design zwischen NVIDIA Blackwell, NVLink™ und NVLink Switch für Scale-out, NVFP4 für Genauigkeit bei Berechnungen mit niedriger Präzision und NVIDIA Dynamo sowie TensorRT™ LLM für Geschwindigkeit und Flexibilität ermöglicht – sowie durch die Entwicklung mit Community-Frameworks wie SGLang, vLLM und mehr.

Ressourcen

Aktuelles zur NVIDIA-Inferenzplattform

Aktuelle Infos erhalten

Informieren Sie sich über die neuesten Updates und Ankündigungen zum Thema NVIDIA Dynamo Inference Server.

Technische Blogs

Lesen Sie technische Anleitungen für den Einstieg in die KI-Inferenz.

Informieren Sie sich genauer

Informieren Sie sich anhand von Tipps und bewährten Methoden für die Bereitstellung, den Betrieb und die Skalierung von KI-Modellen für Inferenz mit generativer KI, LLMs, Empfehlungssystemen, Computer Vision usw.

Steigerung der LLM-Inferenzleistung

Sehen Sie sich unsere Aufzeichnung der NVIDIA Dynamo Office Hour an, um zu erfahren, wie die Bereitstellung von LLM mit NVIDIA Dynamo optimiert werden kann. Erfahren Sie, wie Sie SLAs erfüllen und Interaktivität und Durchsatz durch LLM-fähiges Routing, disaggregiertes Serving und dynamisches Autoscaling auf Open-Source-Modellen und Inferenz-Backends steigern können.

Verteilte Inferenz mit geringer Latenz für die Skalierung von LLMs

Erfahren Sie, wie Sie Reasoning-LLMs mit NVIDIA Dynamo bereitstellen und skalieren. Entdecken Sie fortschrittliche Bereitstellungstechniken wie disaggregiertes Prefill und Decodierung und erfahren Sie, wie NVIDIA NIM eine schnelle, produktionsreife Bereitstellung von KI-Inferenz der nächsten Generation in großem Maßstab ermöglicht.

Kubernetes-natives KI-Serving

Entdecken Sie Grove, eine Kubernetes-native Lösung für die Orchestrierung komplexer KI-Inferenz-Workloads. Grove ist Teil von NVIDIA Dynamo oder eigenständig bereitstellbar und schließt die Lücke zwischen KI-Frameworks und Kubernetes über eine leistungsstarke API – was skalierbare, effiziente KI-Inferenz auf Kubernetes einfacher denn je macht.

Kurzanleitung

Ist NVIDIA Dynamo noch neu für Sie, und möchten Sie Ihr Modell schnell bereitstellen? Nutzen Sie diese Kurzanleitung, um NVIDIA Dynamo kennenzulernen.

Tutorials

Beim Einstieg in NVIDIA Dynamo können viele Fragen aufkommen. Machen Sie sich anhand dieser Ressourcen mit den Funktionen von NVIDIA Dynamo vertraut. Leitfäden und Beispiele können Ihnen die Umstellung erleichtern.

NVIDIA Brev

Erschließen Sie die Leistung der NVIDIA GPU in Sekundenschnelle mit NVIDIA Brev – sofortiger Zugriff, automatische Einrichtung und flexible Bereitstellung auf führenden Cloud-Plattformen. Beginnen Sie sofort mit der Entwicklung und Skalierung Ihrer KI-Projekte.

Optimieren von KI-Serving mit NVIDIA Dynamo AIConfigurator

AIConfigurator eliminiert Rätselraten bei der disaggregierten Bereitstellung. Es empfiehlt die besten Konfigurationen, um Ihre Leistungsziele auf der Grundlage Ihres Modells, Ihres GPU-Budgets und Ihrer SLOs zu erreichen. In diesem Video erfahren Sie, wie Sie mit AIConfigurator beginnen.

Skalierung von Inferenz mit SGLang und NVIDIA Dynamo

Sehen Sie sich das aufgezeichnete SGLang × NVIDIA Meetup an, um die Inferenzleistung in großem Maßstab mit Erkenntnissen der Teams von SGLang und NVIDIA Dynamo zu erkunden. Erfahren Sie mehr über die neuesten Fortschritte und Integrationsstrategien, um KI-Inferenz in Ihren Anwendungen zu optimieren.

Fortschrittliche Techniken für effiziente KI-Inferenz

Dieses Video behandelt die drei wichtigsten Hebel der KI-Inferenz – Qualität, Kosten und Geschwindigkeit – und die Auswirkungen der Skalierung in der Testzeit. Erfahren Sie, wie NVIDIA Dynamo Ihnen präzise Kontrolle durch fortschrittliche Techniken wie Disaggregation, KV-Offloading und KV-Routing bietet, sodass Sie Bereitstellungen großer Modelle ohne Kompromisse optimieren können.

Nächste Schritte

Sind Sie bereit?

Laden Sie auf GitHub herunter und treten Sie der Community bei!

Für Entwickler

Informieren Sie sich über alles, was Sie für den Einstieg in die Entwicklung mit NVIDIA Dynamo benötigen, einschließlich der neuesten Dokumentation, Tutorials, technischen Blogs und mehr.

Kontakt aufnehmen

Sprechen Sie mit einem NVIDIA-Produktspezialisten über den Wechsel vom Pilot- zum Produktivbetrieb mit der Sicherheit, API-Stabilität und Unterstützung von NVIDIA AI Enterprise.

Pressemitteilung lesen | Tech-Blog lesen

Aktuelle Infos erhalten

Informieren Sie sich über die neuesten Updates und Ankündigungen zum Thema Dynamo Inference Server.

Technische Blogs

Lesen Sie technische Anleitungen für den Einstieg in die KI-Inferenz.

Informieren Sie sich genauer

Informieren Sie sich anhand von Tipps und bewährten Methoden für die Bereitstellung, den Betrieb und die Skalierung von KI-Modellen für Inferenz mit generativer KI, LLMs, Empfehlungssystemen, Computer Vision usw.

Bereitstellung, Optimierung und Benchmarking von LLMs

Informieren Sie sich anhand einer schrittweisen Anleitung über die effiziente Verarbeitung von LLMs. Wir zeigen, wie man ein LLM ohne großen Aufwand auf mehreren Backends bereitstellen und ihre Leistung vergleichen kann und wie man die Konfigurationen für die Bereitstellung anpasst, um optimale Leistung zu erzielen.

Anwendungsfälle für Unternehmens-KI von der Entwicklung in den Produktivbetrieb überführen

Erfahren Sie, was KI-Inferenz ist, wie sie in die KI-Bereitstellungsstrategie Ihres Unternehmens passt, welches die größten Herausforderungen bei der Bereitstellung von Unternehmens-KI sind, warum eine ganzheitliche KI-Inferenz-Lösung erforderlich ist, um diese Herausforderungen zu meistern, welches die Hauptbestandteile einer ganzheitlichen Plattform sind und wie Sie Ihre erste KI-Inferenz-Lösung bereitstellen können.

Nutzen Sie die Leistungsfähigkeit von Cloud-fähigen KI-Inferenz-Lösungen

Erfahren Sie, wie sich die NVIDIA KI-Inferenz-Plattform nahtlos in das Angebot führender Cloud-Service-Anbieter integrieren lässt, was die Bereitstellung vereinfacht und die Einführung von LLM-gestützten KI-Anwendungsfällen beschleunigt.

Kurzanleitung

Ist Dynamo noch neu für Sie, und möchten Sie Ihr Modell schnell bereitstellen? Nutzen Sie diese Kurzanleitung, um Dynamo kennenzulernen.

Tutorials

Beim Einstieg in Dynamo können viele Fragen aufkommen. Machen Sie sich anhand dieser Ressourcen mit den Funktionen von Dynamo vertraut. Leitfäden und Beispiele können Ihnen die Umstellung erleichtern.

NVIDIA LaunchPad

In praktischen Übungen lernen Sie schnelle und skalierbare KI mit NVIDIA Dynamo kennen. Sie können sofort die Vorteile der beschleunigten Computing-Infrastruktur von NVIDIA nutzen und Ihre KI-Workloads skalieren. 

5 Hauptgründe, warum Dynamo die Inferenz vereinfacht

NVIDIA Dynamo Inference Server vereinfacht die Bereitstellung von umfangreichen KI-Modellen im Produktivbetrieb, wobei Teams trainierte KI-Modelle aus einem beliebigen Framework von einem lokalen Datenspeicher oder einer Cloud-Plattform auf einer GPU- oder CPU-basierten Infrastruktur bereitstellen können.

Einsatz der Stable-Diffusion-Pipeline von HuggingFace mit Dynamo

In diesem Video wird die Bereitstellung der in der HuggingFace-Diffuser-Bibliothek verfügbaren Stable-Diffusion-Pipeline gezeigt. Wir verwenden Dynamo Inference Server, um die Pipeline zu implementieren und zu benutzen.

Erste Schritte mit NVIDIA Dynamo Inference Server

Dynamo Inference Server ist eine Open-Source-Inferenz-Lösung für die standardisierte Modellbereitstellung und ermöglicht eine schnelle und skalierbare KI im Produktivbetrieb. Angesichts der vielen Funktionen ist es nur natürlich zu fragen: Wo soll ich anfangen? Schauen Sie zu und finden Sie es heraus.