Écosystème de stockage d'IA pour les Data Centers
Réarchitecturer le stockage d'inférence pour la prochaine frontière de l'IA.
Aperçu
Le stockage de mémoire contextuelle NVIDIA® CMX™ est une couche de contexte native de l'IA pour l'inférence d'IA agentique, multi-tours et à contexte long. Basée sur le processeur de stockage NVIDIA BlueField®‑4, il prolonge la mémoire GPU avec une couche de contexte partagée au niveau du pod optimisée pour le cache clé-valeur (KV) éphémère. La plateforme offre une bande passante élevée qui réduit la latence, les coûts et la consommation d'énergie pour les charges de travail d'inférence à grande échelle, ce qui permet d'obtenir un débit plus élevé et une meilleure efficacité énergétique sur les plateformes NVIDIA Rubin.
Produits
De la mémoire contextuelle accélérée et du transfert sécurisé des données aux structures Ethernet et aux cadres d'inférence, NVIDIA CMX est le fruit d'une conception conjointe poussée à l'extrême combinant calcul, réseau, stockage et logiciels.
Avantages du produit
NVIDIA CMX introduit un niveau de contexte dédié qui améliore le débit soutenu et l'efficacité énergétique pour les charges de travail à contexte long à haute intensité de cache KV par rapport aux approches de stockage traditionnelles.
Faites évoluer vos services d'IA grâce à un niveau de stockage hautement efficace et optimisé pour le cache KV qui récupère l'énergie essentielle, libérant ainsi davantage de puissance du Data Center pour les GPU plutôt que pour le stockage traditionnel.
Optimisez les chemins de données et réduisez les temps d'attente en réutilisant le cache KV pré-calculé à partir de la couche CMX au lieu de le recalculer. Cela augmente le nombre de jetons par seconde et le débit pour l'inférence agentique multi-tours. CMX réduit le temps nécessaire pour obtenir le premier et le dernier jeton, ce qui permet d'obtenir des réponses plus rapidement et de les traiter plus rapidement, même lorsque les modèles, les fenêtres contextuelles et la simultanéité augmentent.
Fournissez un accès haut débit à l'échelle du pod au contexte natif de l'IA afin de permettre aux agents multi-tours de se coordonner, de partager leur statut et d'évoluer de manière transparente à mesure que la charge de travail augmente, tout en réduisant la duplication du cache KV et la capacité inutilisée entre les nœuds.
Offrez une capacité de cache KV massive pour prendre en charge le raisonnement à contexte long, les workflows multi-agents, les modèles à trillions de paramètres et les fenêtres contextuelles plus longues pour de nombreux utilisateurs simultanés.
NVIDIA STX est une architecture de référence modulaire pour le stockage d'IA, co-conçue avec les principaux partenaires de stockage et basée sur les logiciels de calcul, de mise en réseau et d'IA accélérés de NVIDIA. NVIDIA STX fournit la base nécessaire pour créer un moteur de données universel qui accélère l'ensemble du cycle de vie de l'IA, de l'entraînement et de l'analyse à l'inférence agentique en temps réel.
Écosystème
Ressources
Pour commencer, contactez l'équipe commerciale NVIDIA dédiée aux entreprises ou le partenaire approprié du programme NVIDIA Partner Network (NPN).
Discutez avec un spécialiste NVIDIA des besoins de votre entreprise.
Inscrivez-vous pour recevoir les dernières nouvelles, mises à jour et plus encore concernant NVIDIA.