NVIDIA CMX Context Memory Storage Plattform

KI-Datenspeicher-Ökosystem für Rechenzentren

NVIDIA CMX Context Memory Storage Plattform

Neugestaltung von Inferenz-Datenspeicher für die nächste Dimension von KI.

Überblick

KI-nativer Datenspeicher beschleunigt Long-Context-Inferenz in großem Maßstab

NVIDIA® CMX™ Context Memory Storage ist eine KI-native Kontext-Ebene für langen Kontext, Multi-Turn und agentische KI-Inferenz. Er wird vom NVIDIA BlueField®-4 Datenspeicherprozessor unterstützt und erweitert den GPU-Speicher mit einer gemeinsamen Kontextebene auf Pod-Ebene, die für ephemere Key-Value-Cache (KV) optimiert ist. Die Plattform bietet einen Pfad mit hoher Bandbreite, der Latenz, Kosten und Energieaufwand für umfangreiche Inferenz-Workloads reduziert und so einen höheren Durchsatz und eine bessere Energieeffizienz auf NVIDIA Rubin Plattformen ermöglicht.

NVIDIA BlueField-4 unterstützt eine neue Klasse von KI-nativem Datenspeicher für die nächste Stufe der KI

NVIDIA CMX erweitert die GPU-Kapazität und ermöglicht die gemeinsame Nutzung von KV-Cache mit hoher Bandbreite in AI-Systemen im Rack-Maßstab. Er bietet einen im Vergleich zu herkömmlichem Datenspeicher höheren Durchsatz und eine bessere Energieeffizienz für langen Kontext und Multi-Turn-Inferenz.

Die neue NVIDIA BlueField-4-gestützte Context Memory Datenspeicher-Plattform für die nächste Stufe der KI

NVIDIA CMX nutzt NVIDIA BlueField-4, DOCA™ und Spectrum-X™ Ethernet, um eine Kontext-Speicherebene auf Pod-Ebene hinzuzufügen, die einen höheren Durchsatz und Energieeffizienz für agentische KI-Inferenz mit langem Kontext bietet.

Produkte

KI-native durchgehend integrierte Datenspeicherinfrastruktur

Von beschleunigtem Kontextspeicher und sicherer Datenübertragung bis hin zu Ethernet-Fabrics und Inferenz-Frameworks – NVIDIA CMX ist das Ergebnis einer intensiven Zusammenarbeit in den Bereichen Computing, Netzwerke, Speicher und Software.

NVIDIA BlueField-4

Die NVIDIA BlueField Plattform beschleunigt NVIDIA CMX durch bahnbrechende Leistung, Effizienz und Innovation. BlueField-4 verwaltet NVMe-Solid-State-Laufwerke (SSDs), führt Speicherdienste aus und übernimmt die Datenintegrität und Verschlüsselung für den KV-Cache mit hoher Energieeffizienz. Seine fortschrittlichen Rechenfunktionen und softwaredefinierten Hardware-Beschleuniger für Netzwerke, Datenspeicher und Sicherheit schaffen eine sichere, energieeffiziente Infrastruktur für jeden Workload.

NVIDIA DOCA Memos

NVIDIA DOCA Memos ist ein für BlueField-4 und CMX optimiertes SDK, das den KV-Cache über KI-Rechen- und CMX-Datenknoten hinweg verwaltet und gemeinsam nutzt, einfache Schlüsselwert-APIs bereitstellt und Ethernet-angeschlossene Flash-Speicher in eine Cache-Ebene auf Pod-Ebene umwandelt. Es bietet sicheren Zugriff mit geringer Latenz und hardwarebeschleunigter Integrität und Verschlüsselung, sodass Anwendungen zustandslos bleiben, während CMX das KV-Cache-Routing und die Wiederverwendung in großem Maßstab übernimmt.

NVIDIA Spectrum-X Ethernet Networking

NVIDIA Spectrum-X Ethernet bietet eine leistungsstarke RDMA-Struktur (Remote Direct Memory Access) für einen Zugriff mit geringer Latenz und hoher Bandbreite auf den KI-nativen KV-Cache im gesamten Pod. Spectrum-X Ethernet wurde speziell für KI entwickelt und nutzt fortschrittliche Überlastungskontrolle, adaptives Routing und verlustfreies RDMA Over Converged Ethernet (RoCE), um Jitter und Tail-Latenz zu minimieren und eine konsistente, wiederholbare Leistung in großen Multi-Tenant-Umgebungen zu gewährleisten. Dadurch kann CMX mit vorhersehbarer hoher Leistung skaliert werden, wodurch der Durchsatz und die Reaktionsfähigkeit für mehrschichtige, agentenbasierte Inferenz-Workloads maximiert werden.

NVIDIA Dynamo

NVIDIA Dynamo ist ein verteiltes Inferenz-Serving-Framework, das CMX und die zugrunde liegenden Kontextspeicherebenen nahtlos über den Pod hinweg darstellt und Anfragen dorthin weiterleitet, wo sich der KV-Cache bereits befindet. Durch die KV-bewusste Platzierung und Wiederverwendung in der Serving-Schicht erhöht Dynamo die Anzahl der Tokens pro Sekunde, reduziert die Zeit bis zum ersten Token und ermöglicht die pod-weite Wiederverwendung von Kontexten für Multi-Turn- und Multi-Agent-Workloads.

Produktvorteile

Beschleunigtes Kontext-Memory für KI mit langem Kontext

NVIDIA CMX führt eine dedizierte Kontextebene ein, die den nachhaltigen Durchsatz und die Energieeffizienz für KV-Cache-intensive Workloads mit langem Kontext im Vergleich zu herkömmlichen Datenspeicheransätzen verbessert.

Energie für Gigascale-KI zurückgewinnen

Skalieren Sie KI-Dienste mit einer hocheffizienten, KV-Cache-optimierten Speicherebene, die essenzielle Leistung zurückgewinnt und so mehr Leistung im Rechenzentrum für GPUs statt für herkömmliche Speicher bereitstellt.

Maximieren Sie GPU-Auslastung, Durchsatz und Reaktionsfähigkeit

Optimieren Sie Datenpfade und reduzieren Sie Verzögerungen durch die Wiederverwendung von vorberechnetem KV-Cache aus der CMX-Ebene, anstatt ihn neu zu berechnen. Dies steigert die Anzahl der Token pro Sekunde und den Durchsatz für agentische Multi-Turn-Inferenz. CMX reduziert die Zeit bis zum ersten Token und die Zeit bis zum letzten Token, sodass Antworten früher gestreamt und schneller fertig gestellt werden, selbst wenn Modelle, Kontextfenster und Gleichzeitigkeit wachsen.

Ermöglichen Sie eine intelligente, effiziente gemeinsame Nutzung des KV-Caches über den KI-Pod

Bieten Sie einen schnellen, podweiten Zugriff auf KI-native Kontexte, damit Multi-Turn-Agenten sich koordinieren, Zustände austauschen und nahtlos skalieren können, wenn die Arbeitslast zunimmt, und gleichzeitig die Duplizierung von KV-Cache und unausgelasteten Kapazitäten über Knoten hinweg reduzieren.

Erweitern Sie die GPU-Kapazität für Inferenz mit langem Kontext

Stellen Sie eine enorme KV-Cache-Kapazität bereit, um Long-Context-Reasoning, Multi-Agenten-Workflows, Modelle mit Billionen Parametern und längere Kontext-Fenster für viele gleichzeitige Benutzer zu unterstützen.

NVIDIA STX

NVIDIA STX ist eine modulare Referenzarchitektur für KI-Datenspeicher, die gemeinsam mit führenden Datenspeicherpartnern entwickelt wurde und auf beschleunigter Rechen-, Netzwerk- und KI-Software von NVIDIA basiert. NVIDIA STX bietet die Grundlage für die Entwicklung einer universellen Daten-Engine, die den gesamten KI-Lebenszyklus beschleunigt, vom Training und der Analyse bis hin zur agentischen Inferenz in Echtzeit.

Ökosystem

NVIDIA CMX Context Memory Storage Partner

Ressourcen

Bausteine für das Kontext-Zeitalter

NVIDIA BlueField-4 STX Datenspeicherplattform kommt mit breiter Branchenakzeptanz auf den Markt

NVIDIA STX ist ein modulares KI-Datenspeicher-Referenzdesign, das gemeinsam mit führenden Anbietern entwickelt wurde und auf beschleunigter Rechen-, Netzwerk- und KI-Software von NVIDIA basiert. Erfahren Sie, wie es die NVIDIA BlueField-4 STX-Datenspeicherplattform unterstützt, die die agentische KI und KI-Dateninfrastruktur optimiert.

Die neue NVIDIA BlueField-4-gestützte Context Memory Storage Plattform

Eine neue Klasse von KI-nativer Speicherinfrastruktur nutzt BlueField, um GPU-Ausfälle bei der Inferenz zu vermeiden, die Energieeffizienz zu verbessern und eine schnelle KV-Freigabe zu ermöglichen, sodass die Inferenzinfrastruktur skaliert werden kann.

NVIDIA CMX Context Memory Datenspeicher Plattform Lösungsübersicht

NVIDIA CMX bietet einen optimierten Pfad mit hoher Bandbreite, der Latenz, Kosten und Energieaufwand im Vergleich zu allgemeinen Datenspeicheransätzen reduziert und einen bis zu 5-mal höheren Durchsatz und eine bis zu 5-mal bessere Energieeffizienz ermöglicht.

Erste Schritte

Sprechen Sie mit den Experten von NVIDIA

Kontaktieren Sie das NVIDIA Enterprise-Vertriebsteam oder Ihren Partner im NVIDIA Partner Network (NPN)-Programm, um direkt durchzustarten.

Benötigen Sie Hilfe bei der Auswahl des richtigen Partners oder Produkts?

Sprechen Sie mit einem NVIDIA Spezialisten über die geschäftlichen Anforderungen.

Verpassen Sie keine Neuigkeiten über NVIDIA

Melden Sie sich an, um die neuesten Nachrichten, Updates und mehr von NVIDIA zu erhalten.