Inférence IA

NVIDIA Dynamo

Faites évoluer et mettez en œuvre rapidement l'inférence IA.

Aperçu

Le système d'exploitation de l'IA

La mise en œuvre efficace des modèles de langage de pointe actuels nécessite souvent des ressources qui dépassent la capacité d'un seul GPU voire d'un nœud entier, ce qui rend le déploiement multi-nœuds distribué essentiel pour l'inférence IA.

NVIDIA Dynamo est un framework de service d'inférence distribué open source conçu pour déployer des modèles dans des environnements multi-nœuds à l'échelle des Data Centers. Cette solution prend en charge les moteurs d'inférence open source (notamment SGLang, NVIDIA TensorRT™ LLM et vLLM) et simplifie les complexités de la mise en service distribuée en désagrégeant les phases d'inférence sur différents GPU, en acheminant intelligemment les demandes vers le GPU approprié pour éviter les calculs redondants et en étendant la mémoire GPU à des niveaux de stockage à haut rendement grâce à la mise en cache des données.

Les microservices NVIDIA NIM™ incluront les capacités de NVIDIA Dynamo pour fournir une option de déploiement rapide et facile. NVIDIA Dynamo sera également pris en charge et disponible avec NVIDIA AI Enterprise.

Qu'est-ce que l'inférence distribuée ?

L'inférence distribuée est le processus d'exécution de l'inférence des modèles d'IA sur plusieurs appareils ou nœuds de calcul afin de maximiser le débit en parallélisant les calculs.

Cette approche permet une mise à l'échelle efficace des applications d'IA à grande échelle, telles que l'IA générative, en distribuant les charges de travail sur des GPU ou une infrastructure Cloud. L'inférence distribuée améliore les performances globales et l'utilisation des ressources en permettant aux utilisateurs d'optimiser la latence et le débit pour les exigences uniques de chaque charge de travail.

Découvrez NVIDIA Dynamo de plus près

Framework d'inférence distribué à faible latence pour la mise à l'échelle des modèles d'IA de raisonnement.

Des benchmarks indépendants montrent que la combinaison de NVIDIA GB300 NVL72 et de NVIDIA Dynamo améliore le débit des modèles MoE (Mixture of Experts) jusqu'à 50 fois par rapport aux systèmes basés sur NVIDIA Hopper™.

Le GB300 NVL72 connecte 72 GPU via NVIDIA NVLink™ à haute vitesse, ce qui permet une communication experte à faible latence essentielle pour les modèles de raisonnement MoE. NVIDIA Dynamo améliore l'efficacité grâce à une inférence désagrégée, en divisant les phases de pré-remplissage et de décodage entre les nœuds pour une optimisation indépendante. Ensemble, GB300 NVL72 et NVIDIA Dynamo forment une pile haute performance optimisée pour l'inférence MoE à grande échelle.

Fonctionnalités

Découvrez les fonctionnalités de NVIDIA Dynamo

Traitement désagrégé

Sépare les phases de contexte et de génération des grands modèles de langage (LLM) sur des GPU distincts, ce qui permet l'allocation et l'optimisation de GPU indépendants pour augmenter les demandes traitées par GPU.

Routeur compatible LLM

Acheminez efficacement le trafic d'inférence, minimisant les calculs répétés coûteux des demandes identiques ou en chevauchement afin de préserver les ressources de calcul tout en garantissant une distribution de charge équilibrée sur les grandes flottes de GPU.

Mise en cache KV vers le stockage

Décharge instantanément le cache KV d'une mémoire GPU limitée vers un stockage évolutif et économique tel que la RAM CPU, des disques SSD locaux ou le stockage en réseau.

Service Kubernetes optimisé par la topologie (Grove)

Permet une mise à l'échelle efficace et un ordonnancement de démarrage déclaratif des composants d'inférence d'IA interdépendants dans les configurations à nœud unique et multi-nœuds à l'aide d'une ressource Kubernetes unifiée personnalisée.

Planificateur de GPU

Surveille la capacité des GPU dans les environnements d'inférence distribués et alloue dynamiquement les travailleurs des GPU en fonction du contexte et des phases de génération afin de résoudre les goulets d'étranglement et d'optimiser les performances.

Bibliothèque de communication à faible latence (NIXL)

Accélère le mouvement des données dans les paramètres d'inférence distribués tout en simplifiant les complexités de transfert sur divers matériels, notamment les GPU, les CPU, les réseaux et le stockage.

AIConfigurator

Lève les incertitudes liées aux clusters de service désagrégés en recommandant des configurations de pré-remplissage et de décodage optimales, ainsi que des stratégies de modèles parallèles adaptées au modèle, au budget GPU et aux objectifs de qualité de service (SLO).

AIPerf

Comparez les performances des modèles d'IA générative sur n'importe quelle solution d'inférence à l'aide de données détaillées via les sorties en ligne de commande et des rapports de performances approfondis.

Accélérez l'inférence distribuée

NVIDIA Dynamo est entièrement open source, ce qui vous offre une transparence et une flexibilité totales. Déployez NVIDIA Dynamo, contribuez à sa croissance et intégrez-le facilement dans votre pile existante.

 Découvrez cette offre sur GitHub et rejoignez la communauté !

Avantages

Les avantages de NVIDIA Dynamo

Passez facilement d'un GPU à des milliers de GPU

Simplifiez et automatisez la configuration des clusters de GPU avec des outils préconstruits et faciles à déployer et permettez une auto-mise à l'échelle dynamique avec des métriques spécifiques aux LLM en temps réel, évitant ainsi le sur-ou le sous-approvisionnement des ressources GPU.

Augmentez la capacité de traitement d'inférence tout en réduisant les coûts

Exploitez les optimisations avancées de service d'inférence LLM, telles que le service désagrégé et la mise à l'échelle automatique en fonction de la topologie, pour augmenter le nombre de demandes d'inférence traitées sans compromettre l'expérience utilisateur.

Adaptez votre infrastructure d'IA pour l'avenir et évitez des migrations coûteuses

La conception ouverte et modulaire vous permet de sélectionner facilement les composants d'inférence qui répondent à vos besoins uniques, garantissant ainsi la compatibilité avec votre pile d'IA existante et évitant les projets de migration coûteux.

Accélérez les délais de déploiement de nouveaux modèles d'IA en production

La prise en charge par NVIDIA Dynamo de tous les principaux frameworks, notamment NVIDIA TensorRT-LLM, vLLM, SGLang, PyTorch et bien d'autres encore, garantit votre capacité à déployer rapidement de nouveaux modèles d'IA générative, quel que soit leur backend.

Partenaires de l'écosystème Dynamo

Cas d'utilisation

Déploiement de l'IA avec NVIDIA Dynamo

Découvrez comment vous pouvez stimuler l'innovation grâce à NVIDIA Dynamo.

Traitement de modèles de raisonnement

Les modèles de raisonnement génèrent plus de jetons pour résoudre des problèmes complexes, ce qui augmente les coûts d'inférence. NVIDIA Dynamo optimise ces modèles grâce à des fonctionnalités telles que la distribution désagrégée. Cette approche sépare les phases de calcul de pré-remplissage et de décodage dans des GPU distincts, ce qui permet aux équipes d'inférence d'IA d'optimiser chaque phase de manière indépendante. Il en résulte une meilleure utilisation des ressources, plus de requêtes traitées par GPU et une réduction des coûts d'inférence. Combiné au modèle NVIDIA GB200 NVL72, NVIDIA Dynamo augmente jusqu'à 15 fois les performances de composition.

Mise à l'échelle de l'IA avec Kubernetes

À mesure que les modèles d'IA deviennent trop grands pour s'insérer sur un seul nœud, leur exploitation efficace devient plus complexe. L'inférence distribuée nécessite de diviser les modèles sur plusieurs nœuds, ce qui ajoute de la complexité en matière d'orchestration, de mise à l'échelle et de communication dans les environnements basés sur Kubernetes. La garantie de fonctionnement de ces nœuds en tant qu'unité cohésive, en particulier dans les charges de travail dynamiques, exige une gestion minutieuse. NVIDIA Dynamo simplifie cette tâche en utilisant Grove, qui gère la planification, la mise à l'échelle et le service en toute simplicité, afin que vous puissiez vous concentrer sur le déploiement de l'IA et non sur la gestion de l'infrastructure.

Agents d'IA évolutifs

Les agents d'IA génèrent d'énormes quantités de cache KV lorsqu'ils travaillent en temps réel avec plusieurs modèles : LLM, systèmes de récupération et outils spécialisés. Ce cache KV dépasse souvent la capacité de la mémoire GPU, ce qui crée un goulet d'étranglement en matière de mise à l'échelle et de performances.

Pour surmonter les limitations de la mémoire GPU, la mise en cache des données KV dans la mémoire hôte ou le stockage externe augmente la capacité, ce qui permet aux agents d'IA d'évoluer sans contraintes. NVIDIA Dynamo simplifie cette tâche grâce à son système de gestion KV Cache Manager et à l'intégration à des outils open source tels que LMCache afin de garantir une gestion efficace du cache et des performances évolutives des agents d'IA.

Génération de code

La génération de code nécessite souvent un raffinement itératif pour ajuster les invites, clarifier les exigences ou déboguer les résultats en fonction des réponses du modèle. Ce va-et-vient nécessite un nouveau calcul du contexte à chaque exécution de l'utilisateur, ce qui augmente les coûts d'inférence. NVIDIA Dynamo optimise ce processus en permettant la réutilisation du contexte.

Le routeur compatible LLM de NVIDIA Dynamo gère intelligemment le cache KV sur les clusters GPU multi-nœuds. Il achemine les requêtes en fonction du chevauchement de cache, les dirigeant vers les GPU offrant le potentiel de réutilisation le plus élevé. Cela permet de minimiser les calculs redondants et garantit des performances équilibrées lors des déploiements à grande échelle.

Témoignages clients

Découvrez ce que les leaders de l'industrie ont à dire sur NVIDIA Dynamo

Cohere

« La mise à l'échelle des modèles d'IA avancés nécessite une planification multi-GPU sophistiquée, une coordination transparente et des bibliothèques de communication à faible latence qui transfèrent facilement les contextes de raisonnement dans la mémoire et le stockage. Nous nous attendons à ce que Dynamo nous aide à offrir une expérience utilisateur de premier ordre à nos clients professionnels. » 

Saurabh Baji, vice-président principal de l'ingénierie chez Cohere

Perplexity AI

« Nous traitons des centaines de millions de requêtes par mois, et nous nous appuyons sur les GPU et les logiciels d'inférence de NVIDIA pour offrir les performances, la fiabilité et l'évolutivité qu'exigent notre entreprise et nos utilisateurs. Nous avons hâte d'exploiter Dynamo et ses capacités de service distribué améliorées pour obtenir encore plus d'efficacité en matière de service d'inférence et répondre aux exigences de calcul des nouveaux modèles de raisonnement d'IA. »

Denis Yarats, CTO de Perplexity AI.

Together AI

« Faire évoluer les modèles de raisonnement de manière rentable nécessite de nouvelles techniques d'inférence avancées, notamment une prestation désagrégée et un routage sensible au contexte. Together AI fournit des performances de pointe pour l'industrie à l'aide de notre moteur d'inférence propriétaire. L'ouverture et la modularité de NVIDIA Dynamo nous permettront de connecter facilement ses composants à notre moteur pour répondre à plus de requêtes tout en optimisant l'utilisation des ressources, ce qui maximisera notre investissement dans le calcul accéléré. » 

Ce Zhang, CTO de Together AI.

Études de cas

Comment les leaders de l'industrie améliorent le déploiement de modèles avec la plateforme NVIDIA Dynamo

Adoptants

Principaux adopteurs de tous les secteurs

NVIDIA Blackwell Ultra offre des performances jusqu'à 50 fois supérieures et des coûts 35 fois inférieurs pour l'IA agentique

Conçu pour accélérer la nouvelle génération d'IA agentique, NVIDIA Blackwell Ultra offre des performances d'inférence révolutionnaires à des coûts considérablement réduits. Les fournisseurs Cloud tels que Microsoft, CoreWeave et Oracle Cloud Infrastructure déploient des systèmes NVIDIA GB300 NVL72 à grande échelle pour des cas d'utilisation à faible latence et à long contexte, tels que le codage agentique et les assistants de codage.

Cette initiative de mise à niveau axée sur l'excellence permet la co-conception approfondie sur NVIDIA Blackwell, NVLink™ et NVLink Switch pour l’évolutivité, NVFP4 pour la précision, NVIDIA Dynamo et les LLM TensorRT™ pour la vitesse et la flexibilité, ainsi que le développement avec les frameworks communautaires SGLang, vLLM et bien plus encore.

Ressources

Actualités de l'Inférence avec NVIDIA

Suivre l'actualité

En savoir plus sur les dernières mises à jour et annonces concernant l'inférence pour le serveur d'inférence NVIDIA Dynamo.

Consulter blogs techniques

Découvrez les présentations techniques sur la façon de commencer avec l'inférence.

Apprenez davantage

Découvrez des conseils et des bonnes pratiques pour déployer, exécuter et faire évoluer les modèles d'IA pour l'inférence de l'IA générative, les LLM, les systèmes de recommandation, la vision par ordinateur, et bien plus encore.

Amélioration des performances d'inférence LLM

Regardez notre enregistrement Office Hour sur NVIDIA Dynamo pour savoir comment optimiser le service de LLM avec NVIDIA Dynamo. Découvrez comment respecter les SLA, mais aussi augmenter l'interactivité et le débit grâce à un routage compatible avec les LLM, au service désagrégé et à une mise à l'échelle automatique dynamique sur des modèles open source et des backends d'inférence.

Inférence distribuée à faible latence pour la mise à l'échelle des LLM

Apprenez à déployer et à faire évoluer des LLM de raisonnement à l'aide de NVIDIA Dynamo. Explorez des techniques de service avancées telles que le pré-remplissage et le décodage désagrégés, et découvrez comment NVIDIA NIM permet un déploiement rapide et prêt pour la production d'une inférence d'IA de nouvelle génération à grande échelle.

Service IA natif de Kubernetes

Découvrez Grove, une solution native de Kubernetes pour orchestrer des charges de travail d'inférence d'IA complexes. Intégré à NVIDIA Dynamo ou déployable de manière autonome, Grove comble le fossé entre les frameworks d'IA et Kubernetes grâce à une API puissante, qui rend l'inférence d'IA évolutive et efficace sur Kubernetes plus simple que jamais.

Guide de démarrage rapide

Vous débutez avec NVIDIA Dynamo et souhaitez déployer votre modèle rapidement ? Utilisez ce guide de démarrage rapide pour commencer votre parcours avec NVIDIA Dynamo.

Didacticiels

Démarrer avec NVIDIA Dynamo peut conduire à de nombreuses questions. Découvrez ce référentiel pour vous familiariser avec les fonctionnalités de NVIDIA Dynamo et trouver des guides et des exemples qui peuvent vous aider à faciliter la migration.

NVIDIA Brev

Débloquez la puissance de vos GPU NVIDIA en quelques secondes avec NVIDIA Brev, qui vous fournit un accès instantané, une configuration automatique et un déploiement flexible sur les meilleures plateformes Cloud. Commencez à créer et à faire évoluer vos projets d'IA sans attendre.

Comment optimiser le service d'IA avec NVIDIA Dynamo AIConfigurator

AIConfigurator simplifie le service désagrégé en éliminant toute incertitude. Il recommande les meilleures configurations pour atteindre vos objectifs de performances en fonction de votre modèle, de votre budget GPU et de vos SLO. Dans cette vidéo, vous allez découvrir comment vous lancer avec AIConfigurator.

Mise à l'échelle de l'inférence avec SGLang et NVIDIA Dynamo

Regardez l'enregistrement de la présentation SGLang × NVIDIA pour découvrir les performances d'inférence à grande échelle avec les informations des équipes de SGLang et de NVIDIA Dynamo. Découvrez les dernières avancées et stratégies d'intégration pour optimiser l'inférence d'IA dans vos applications.

Techniques avancées pour une inférence d'IA efficace

Cette vidéo explore les trois principaux leviers de l'inférence d'IA — la qualité, le coût et la vitesse — ainsi que l'impact de la mise à l'échelle du temps de test sur chacun d'eux. Découvrez comment NVIDIA Dynamo vous offre un contrôle précis grâce à des techniques avancées telles que la désagrégation, le déchargement KV et le routage KV afin d'optimiser les déploiements de grands modèles sans faire de compromis.

Étapes suivantes

Vous voulez vous lancer ?

Téléchargez sur GitHub et rejoignez la communauté !

Pour les développeurs

Découvrez tout ce dont vous avez besoin pour commencer à développer avec NVIDIA Dynamo, notamment la documentation la plus récente ainsi que des didacticiels, des articles techniques et plus encore.

Contactez-nous

Discutez avec un spécialiste des produits NVIDIA pour savoir comment passer du stade de pilote à la phase de production en bénéficiant de la garantie de sécurité, de stabilité d'API et du support technique de NVIDIA AI Enterprise.

Lire le communiqué de presse | Lire l'article technique

Suivre l'actualité

En savoir plus sur les dernières mises à jour et annonces concernant l'inférence pour le serveur d'inférence NVIDIA Dynamo.

Consulter blogs techniques

Découvrez les présentations techniques sur la façon de commencer avec l'inférence.

Apprenez davantage

Découvrez des conseils et des bonnes pratiques pour déployer, exécuter et faire évoluer les modèles d'IA pour l'inférence de l'IA générative, les LLM, les systèmes de recommandation, la vision par ordinateur, et bien plus encore.

Déploiement, optimisation et benchmarking des LLM

Découvrez comment traiter efficacement les LLM avec des instructions étape par étape. Nous allons expliquer comment déployer facilement un LLM sur plusieurs backends et comparer leurs performances, ainsi que la façon d'affiner les configurations de déploiement pour des performances optimales.

Déplacez les cas d'utilisation de l'IA d'entreprise, du développement à la production

Découvrez ce qu'est l'inférence de l'IA, comment elle s'intègre dans la stratégie de déploiement de l'IA de votre entreprise, quels sont les principaux défis posés par le déploiement de l'IA de qualité d'entreprise, pourquoi une solution d'inférence de l'IA complète est nécessaire pour relever ces défis, les principaux composants d'une plateforme complète et comment déployer votre première solution d'inférence de l'IA.

Exploitez la puissance des solutions d'inférence de l'IA prêtes pour le Cloud

Découvrez comment la plateforme d'inférence de l'IA NVIDIA s'intègre facilement aux principaux fournisseurs de services Cloud, simplifiant le déploiement et accélérant le lancement de cas d'utilisation de l'IA basés sur des LLM.

Guide de démarrage rapide

Vous débutez avec Dynamo et souhaitez déployer votre modèle rapidement ? Utilisez ce guide de démarrage rapide pour commencer votre parcours avec Dynamo.

Didacticiels

Démarrer avec Dynamo peut conduire à de nombreuses questions. Découvrez ce référentiel pour vous familiariser avec les fonctionnalités de Dynamo et trouver des guides et des exemples qui peuvent vous aider à faciliter la migration.

NVIDIA LaunchPad

Avec nos formations pratiques, découvrez une IA rapide et évolutive à l'aide de NVIDIA Dynamo. Vous allez pouvoir exploiter immédiatement tous les avantages de l’infrastructure de calcul accéléré de NVIDIA et faire évoluer vos charges de travail d’IA. 

Les 5 principales raisons pour lesquelles Dynamo simplifie l'inférence

Le serveur d'inférence NVIDIA Dynamo simplifie le déploiement des modèles d'IA à grande échelle en production, permettant aux équipes de déployer des modèles d'IA entraînés à partir de n'importe quel framework depuis le stockage local ou une plateforme Cloud sur n'importe quelle infrastructure basée sur GPU ou CPU.

Déployer le pipeline de diffusion stable de HuggingFace avec Dynamo

Cette vidéo présente le déploiement du pipeline Stable Diffusion disponible via la bibliothèque de diffuseurs HuggingFace. Nous utilisons le serveur d'inférence NVIDIA Dynamo pour déployer et exécuter le pipeline.

Démarrer avec le serveur d'inférence NVIDIA Dynamo

Dynamo Inference Server est une solution d'inférence open source qui standardise le déploiement des modèles et permet une IA rapide et évolutive en production. En raison de ses nombreuses fonctionnalités, la question qui peut se poser est la suivante : par où dois-je commencer ? Suivez-la pour ne rien manquer !