Plateforme de stockage de mémoire contextuelle NVIDIA CMX

Écosystème de stockage d'IA pour les Data Centers

Plateforme de stockage NVIDIA CMX Context Memory

Réarchitecturer le stockage d'inférence pour la prochaine frontière de l'IA.

Aperçu
Produits
Avantages
Écosystème
Ressources
Démarrer

Aperçu
Produits
Avantages
Écosystème
Ressources
Démarrer

Aperçu

Le stockage natif de l'IA accélère l'inférence de contexte long à grande échelle

Le stockage de mémoire contextuelle NVIDIA® CMX™ est une couche de contexte native de l'IA pour l'inférence d'IA agentique, multi-tours et à contexte long. Basée sur le processeur de stockage NVIDIA BlueField®‑4, il prolonge la mémoire GPU avec une couche de contexte partagée au niveau du pod optimisée pour le cache clé-valeur (KV) éphémère. La plateforme offre une bande passante élevée qui réduit la latence, les coûts et la consommation d'énergie pour les charges de travail d'inférence à grande échelle, ce qui permet d'obtenir un débit plus élevé et une meilleure efficacité énergétique sur les plateformes NVIDIA Rubin.

NVIDIA BlueField-4 alimente une nouvelle classe de stockage natif de l'IA pour la nouvelle ère de l'IA

NVIDIA CMX étend la capacité des GPU et permet le partage du cache KV à bande passante élevée entre les systèmes d'IA à l'échelle du rack. Ce stockage offre un débit plus élevé et une meilleure efficacité énergétique que le stockage traditionnel pour l'inférence multi-tours à contexte long.

Lire le communiqué de presse

Présentation de la plateforme de stockage de mémoire contextuelle NVIDIA basée sur BlueField-4 pour la nouvelle ère de l'IA

NVIDIA CMX utilise NVIDIA BlueField-4, DOCA™ et Spectrum-X™ Ethernet pour ajouter une couche de mémoire contextuelle au niveau du pod qui offre un débit et une efficacité énergétique plus élevés pour l'inférence d'IA agentique en contexte long.

Lire l’article

Produits

Infrastructure de stockage native de l'IA, intégrée de bout en bout

De la mémoire contextuelle accélérée et du transfert sécurisé des données aux structures Ethernet et aux cadres d'inférence, NVIDIA CMX est le fruit d'une conception conjointe poussée à l'extrême combinant calcul, réseau, stockage et logiciels.

NVIDIA BlueField-4

La plateforme NVIDIA BlueField accélère NVIDIA CMX en offrant des performances, une efficacité et une innovation révolutionnaires. BlueField-4 gère les disques SSD NVMe (Non-Volatile Memory Express), exécute les services de stockage et décharge l'intégrité des données et le chiffrement pour le cache KV avec une efficacité énergétique élevée. Ses capacités de calcul avancées et ses accélérateurs matériels définis par logiciel pour la mise en réseau, le stockage et la sécurité créent une infrastructure sécurisée et écoénergétique pour toutes les charges de travail.

Transformez les Data Centers grâce à NVIDIA BlueField

NVIDIA DOCA Memos

NVIDIA DOCA Memos est un SDK optimisé pour BlueField-4 et CMX qui gère et partage le cache KV entre les nœuds de calcul d'IA et de données CMX, exposant des API clé-valeur simples et transformant la mémoire flash connectée en Ethernet en un niveau de cache au niveau du pod. Il offre un accès sécurisé à faible latence avec une intégrité et un chiffrement accélérés par le matériel, permettant aux applications de rester sans état tandis que CMX gère le routage et la réutilisation du cache KV à grande échelle.

Accélérez l'inférence d'IA avec DOCA Memos

Mise en réseau NVIDIA Spectrum-X Ethernet

NVIDIA Spectrum-X Ethernet fournit une structure RDMA (accès direct à la mémoire) haute performance pour un accès à faible latence et à bande passante élevée au cache KV natif de l'IA sur tout le pod. Spécialement conçu pour l'IA, Spectrum-X Ethernet utilise un contrôle avancé de la congestion, un routage adaptatif et une technologie RDMA sur Ethernet convergent (RoCE) sans perte pour minimiser les fluctuations et la latence de queue, offrant ainsi des performances cohérentes et reproductibles dans les grands environnements multi-locataires. Cela permet à CMX d'évoluer avec des performances élevées prévisibles, ce qui maximise le débit et la réactivité pour les charges de travail d'inférence agentique multi-tours.

Faites évoluer la mise en réseau d'IA avec Spectrum-X Ethernet

NVIDIA Dynamo

NVIDIA Dynamo est un framework de service d'inférence distribué qui permet à CMX et aux couches de stockage de contexte sous-jacentes d'apparaître de manière transparente sur le pod, acheminant les requêtes vers l'endroit où se trouve déjà le cache KV. En gérant le placement et la réutilisation compatibles KV dans la couche de service, Dynamo augmente le nombre de jetons par seconde, réduit le temps nécessaire au premier jeton et permet une réutilisation du contexte à l'échelle du pod pour les charges de travail multi-tours et multi-agents.

Accélérez l'inférence d'IA avec NVIDIA Dynamo

Avantages du produit

Mémoire contextuelle accélérée pour l'IA à contexte long

NVIDIA CMX introduit un niveau de contexte dédié qui améliore le débit soutenu et l'efficacité énergétique pour les charges de travail à contexte long à haute intensité de cache KV par rapport aux approches de stockage traditionnelles.

Libérez la puissance de l'IA gigascale

Faites évoluer vos services d'IA grâce à un niveau de stockage hautement efficace et optimisé pour le cache KV qui récupère l'énergie essentielle, libérant ainsi davantage de puissance du Data Center pour les GPU plutôt que pour le stockage traditionnel.

Maximisez l'utilisation, le débit et la réactivité des GPU

Optimisez les chemins de données et réduisez les temps d'attente en réutilisant le cache KV pré-calculé à partir de la couche CMX au lieu de le recalculer. Cela augmente le nombre de jetons par seconde et le débit pour l'inférence agentique multi-tours. CMX réduit le temps nécessaire pour obtenir le premier et le dernier jeton, ce qui permet d'obtenir des réponses plus rapidement et de les traiter plus rapidement, même lorsque les modèles, les fenêtres contextuelles et la simultanéité augmentent.

Activez un partage de cache KV intelligent et efficace sur l'ensemble du pod de l'IA

Fournissez un accès haut débit à l'échelle du pod au contexte natif de l'IA afin de permettre aux agents multi-tours de se coordonner, de partager leur statut et d'évoluer de manière transparente à mesure que la charge de travail augmente, tout en réduisant la duplication du cache KV et la capacité inutilisée entre les nœuds.

Augmentez la capacité des GPU pour l'inférence de contexte long

Offrez une capacité de cache KV massive pour prendre en charge le raisonnement à contexte long, les workflows multi-agents, les modèles à trillions de paramètres et les fenêtres contextuelles plus longues pour de nombreux utilisateurs simultanés.

NVIDIA STX

NVIDIA STX est une architecture de référence modulaire pour le stockage d'IA, co-conçue avec les principaux partenaires de stockage et basée sur les logiciels de calcul, de mise en réseau et d'IA accélérés de NVIDIA. NVIDIA STX fournit la base nécessaire pour créer un moteur de données universel qui accélère l'ensemble du cycle de vie de l'IA, de l'entraînement et de l'analyse à l'inférence agentique en temps réel.

En savoir plus sur NVIDIA STX

Écosystème

Partenaires de stockage de mémoire contextuelle NVIDIA CMX

Ressources

Les pierres angulaires de l'ère du contexte

Lancement de la plateforme de stockage NVIDIA BlueField-4 STX, largement adoptée par l'industrie

NVIDIA STX est une conception de référence de stockage d'IA modulaire co-développée avec les principaux fournisseurs et basée sur les logiciels de calcul, de mise en réseau et d'IA accélérés de NVIDIA. Découvrez comment elle alimente la plateforme de stockage NVIDIA BlueField-4 STX qui stimule l'IA agentique et l'infrastructure de données d'IA.

Lire le communiqué de presse

Présentation de la plateforme de stockage de mémoire contextuelle basée sur NVIDIA BlueField-4

Une nouvelle classe d'infrastructure de stockage native de l'IA utilise BlueField pour éliminer les ralentissements des GPU d'inférence, améliorer l'efficacité énergétique et permettre un partage KV à haute vitesse, afin que l'infrastructure d'inférence puisse s'adapter.

Lire l’article

Aperçu de la solution de la plateforme de stockage à mémoire contextuelle NVIDIA CMX

NVIDIA CMX fournit un parcours optimisé à bande passante élevée qui réduit la latence, les coûts et la consommation d'énergie par rapport aux approches de stockage généralistes, permettant ainsi d'obtenir un débit jusqu'à 5 fois supérieur et une efficacité énergétique jusqu'à 5 fois meilleure.

Lire la présentation de la solution

Démarrer

Collaborez avec les experts NVIDIA

Pour commencer, contactez l'équipe commerciale NVIDIA dédiée aux entreprises ou le partenaire approprié du programme NVIDIA Partner Network (NPN).

Contact commercial Trouver un partenaire

Vous avez besoin d'aide pour sélectionner le bon partenaire ou produit ?

Discutez avec un spécialiste NVIDIA des besoins de votre entreprise.

Contactez-nous

Suivez l’actualité de NVIDIA

Inscrivez-vous pour recevoir les dernières nouvelles, mises à jour et plus encore concernant NVIDIA.

Restez informés