Solutions d'inférence IA

Plateforme d'inférence NVIDIA

Alimenter les usines d'IA les plus performantes, efficientes et rentables.

Démarrer

Lire les séries | Benchmarks de performance | Pour les développeurs

Aperçu
Performances
Avantages
Plateforme
Études de cas
Ressources
Étapes suivantes

Aperçu
Performances
Avantages
Plateforme
Études de cas
Ressources
Étapes suivantes

Démarrer

Aperçu

Comment faire évoluer l'inférence d'IA de manière rentable ?

L'inférence d'IA, c'est-à-dire la façon dont nous expérimentons l'IA via des chatbots, des copilotes et des outils créatifs, évolue à un rythme exponentiel double. L'adoption par les utilisateurs s'accélère, tandis que les jetons d'IA générés par interaction, basés sur des workflows agentiques, un raisonnement à long terme et des modèles Mixture-of-Experts (MoE), s'envolent.

Pour permettre une inférence de cette ampleur, NVIDIA fournit une architecture à l'échelle des centres de données sur un rythme annuel. Notre conception conjointe de matériel et de logiciels extrêmes permet d'améliorer considérablement les performances et de réduire le coût par jeton, rendant ainsi les expériences d'IA avancées économiquement viables à grande échelle.

NVIDIA GB300 NVL72 offre 50 fois plus de jetons par watt et un coût de jeton 35 fois inférieur à celui de Hopper™, maximisant ainsi les revenus pour un budget énergétique identique et générant des taux de marque plus élevés. Les optimisations logicielles continues permettent d'obtenir des performances maximales à l'échelle des puces, des racks et des Data Centers, améliorant ainsi le retour sur investissement au fil du temps.

NVIDIA Vera Rubin inaugure la prochaine avancée en matière d'IA

La plateforme NVIDIA Vera Rubin se compose de sept nouvelles puces désormais en pleine production pour mettre à l'échelle les plus grandes usines d'IA au monde.

Lire l’article

Les principaux fournisseurs d'inférence réduisent leurs coûts d'IA jusqu'à 10 fois grâce à des modèles open source sur NVIDIA Blackwell

Baseten, Deep Infra, Fireworks AI et Together AI réduisent leur coût par jeton dans tous les secteurs grâce à des piles d'inférence optimisées s'exécutant sur la plateforme NVIDIA Blackwell.

Lire l’article

Les performances d'inférence réduisent le coût des jetons

Cliquez pour agrandir l'image

Les résultats de DeepSeek-R1 8K/1K montrent un avantage de performances multiplié par 15 et une opportunité de revenus pour NVIDIA Blackwell GB200 NVL72 par rapport à Hopper H200.

Avantages

Les performances les plus élevées maximisent les revenus

Grâce à une conception conjointe extrême du matériel et des logiciels, NVIDIA GB300 NVL72 offre 50 fois plus de jetons par watt que Hopper, maximisant ainsi les revenus de l'usine d'IA avec le même budget énergétique. Les optimisations logicielles continues permettent d'obtenir des performances maximales à l'échelle des puces, des racks et des Data Centers, améliorant ainsi le retour sur investissement au fil du temps.

Le coût des jetons plus bas augmente les taux de marque

Le système NVIDIA GB300 NVL72 offre un coût par jeton 35 fois inférieur à celui de la plateforme NVIDIA Hopper, permettant ainsi d'augmenter les taux de marque des usines d'IA. À chaque génération, les améliorations des performances dépassent largement les coûts d'infrastructure, améliorant ainsi la rentabilité pour permettre des expériences d'IA avancées à grande échelle.

La pile complète optimise tous les modèles et cas d'utilisation

NVIDIA prend en charge tous les modèles d'IA générative, de ML traditionnel, de calcul scientifique, de biologie et d'IA physique. Des applications en temps réel sensibles à la latence au traitement par lots haut débit, NVIDIA offre les meilleures performances pour tous les cas d'utilisation. Cette plateforme offre une flexibilité et une programmabilité maximales pour choisir la configuration optimale en fonction de l'évolution des charges de travail et des exigences commerciales.

L'intégration native accélère le déploiement

Les logiciels NVIDIA prêts pour la production, notamment Dynamo et TensorRT™ LLM, et l'intégration native avec les principaux frameworks tels que PyTorch, vLLM, SGLang et llm-d, offrent la pile d'inférence d'IA la plus robuste. À mesure que les architectures de modèles et les techniques d'inférence évoluent rapidement, la pile NVIDIA garantit le passage le plus rapide de l'innovation à la production.

Plateforme

Conception conjointe matérielle-logicielle poussée

Un matériel puissant sans orchestration intelligente gaspille du potentiel, tandis qu'un logiciel de qualité sans matériel rapide délivre des performances d'inférence. La plateforme d'inférence de NVIDIA fournit une solution complète optimisée en continu avec des capacités de calcul, de mise en réseau, de stockage et de logiciels co-conçus pour permettre les performances les plus élevées avec diverses charges de travail.

Découvrez certaines des principales innovations matérielles et logicielles de NVIDIA.

NVIDIA Vera Rubin NVL72

La plateforme NVIDIA Vera Rubin offre des performances par watt 10 fois supérieures à celles de Blackwell et un coût par jeton 10 fois inférieur à celui de Blackwell. Grâce à une conception co-développée extrême, la plateforme associe des GPU Rubin pour un pré-remplissage de contexte massif à LPX pour un décodage rapide, éliminant ainsi le compromis entre vitesse et évolutivité.

Découvrez sept nouvelles puces et un supercalculateur d'IA

NVIDIA Grace Blackwell Ultra NVL72

GB300 NVL72 comprend 72 GPU B300 connectés avec 130 To/s NVLink™, afin qu'ils puissent communiquer en toute transparence entre eux et débloquer d'énormes modèles Mixture of Experts à grande échelle.

Découvrez des performances de raisonnement d'IA supérieures sur GB200 NVL72

NVIDIA Dynamo

NVIDIA Dynamo est un framework de service d'inférence distribué open source dédié au déploiement des modèles dans des environnements multi-nœuds à l'échelle d'une usine d'IA. Il rationalise le traitement distribué en désagrégant l'inférence, en optimisant le routage et en étendant la mémoire via la mise en cache des données vers des couches de stockage rentables.

Déployez en toute simplicité sur plusieurs nœuds avec Dynamo

TensorRT LLM

TensorRT LLM est une bibliothèque open source pour une inférence LLM hautes performances en temps réel optimisée en continu sur des GPU NVIDIA. Grâce à un environnement d'exécution Python modulaire, à la création native de PyTorch et à une API de production stable, il est optimisé pour maximiser le débit, minimiser les coûts et fournir des expériences utilisateur rapides.

Optimisez l'inférence avec TensorRT LLM

Décodage des performances Paretos

Vous êtes-vous déjà demandé comment les compromis complexes en matière d'IA se traduisent en résultats réels ? Découvrez différents points sur les courbes de performance ci-dessous pour vous rendre compte comment la conception conjointe matérielle et logicielle poussée fait de NVIDIA Blackwell Ultra le choix le plus performant, le plus efficace et le plus rentable.

TPS / user

–

TPS / MW

–

Simulated Chat Experience

DeepSeek R1 ISL = 32K, OSL = 8K, GB300 NVL72 avec désagrégation FP4 Dynamo. H100 avec regroupement FP8 en vol. Performances projetées sujettes à modification.

Vous vous demandez comment chaque configuration se traduit par une expérience utilisateur réelle ? Explorez les courbes seul ou avec l'aide de TJ en cliquant sur « Explorer avec TJ » et voyez-les prendre vie dans le chat simulé à droite.

Explore More with NVIDIA Dynamo AI Configurator

Études de cas

Comment les leaders du secteur stimulent l'innovation avec l'inférence de l'IA

Autres études de cas

Amdocs

Accelerate Generative AI Performance and Lower Costs

Read how Amdocs built amAIz, a domain-specific generative AI platform for telcos, using NVIDIA DGX™ Cloud and NVIDIA NIM inference microservices to improve latency, boost accuracy, and reduce costs.

Read Case Study

Snapchat

Enhancing Apparel Shopping With AI

Learn how Snapchat enhanced the clothes shopping experience and emoji-aware optical character recognition using Triton Inference Server to scale, reduce costs, and accelerate time to production.

Read Case Study

Amazon

Accelerate Customer Satisfaction

Discover how Amazon improved customer satisfaction by accelerating their inference 5X faster with TensorRT.

Read Case Study

Ressources

Découvrez nos ressources les plus récentes sur l'IA

Articles de blog
Sessions
Formation
Vidéos

Voir plus de sessions

Démarrez avec l’inférence sur NVIDIA LaunchPad

Votre projet d’IA est en cours ? Postulez pour acquérir une expérience pratique en matière de test et de prototypage de vos solutions d’IA.

Postuler

Parcours d’apprentissage en IA générative et LLM

Améliorez vos compétences techniques en IA générative et en modèles de langage à grande échelle grâce à nos parcours d'apprentissage complets.

Découvrir

Démarrez avec l'inférence de l'IA générative sur NVIDIA LaunchPad

Accélérez votre parcours en IA générative avec un accès gratuit, immédiat et à court terme aux microservices d'inférence NVIDIA NIM et aux modèles d'IA.

Démarrer

Voir plus de formations

Déployer l'IA générative en production avec les microservices NVIDIA NIM

Libérez le potentiel de l'IA générative avec les microservices NVIDIA NIM. Cette vidéo explique comment les microservices NVIDIA NIM peuvent transformer votre déploiement de l’IA en une véritable centrale de production.

Regarder la vidéo (01:55)

Top 5 des raisons pour lesquelles Triton simplifie l'inférence

Le serveur d’inférence Triton simplifie le déploiement à grande échelle de vos modèles d’IA en production. Les logiciels d'inférence open source permettent aux équipes de déployer des modèles d'IA entraînés à partir de n'importe quel framework (stockage local ou plateforme Cloud) et sur n'importe quelle infrastructure basée sur GPU ou CPU.

Regarder la vidéo (01:59)

UneeQ

NVIDIA dévoile les NIM

Vous êtes-vous déjà demandé ce que la technologie NIM de NVIDIA est capable de faire ? Plongez dans le monde impressionnant des humains numériques et des robots pour découvrir ce dont les NIM sont capables.

Regarder la vidéo (13:42)

Voir d'autres vidéos

Étapes suivantes

Vous voulez vous lancer ?

Découvrez tout ce dont vous avez besoin pour commencer à développer votre application d'IA, y compris la documentation, les didacticiels et les articles techniques les plus récents, et plus encore.

Commencez à développer Commencer à développer

Trouvez le matériel adapté pour vos charges de travail d'inférence.

Les solutions NVIDIA pour Data Center sont disponibles auprès de certains fournisseurs du Réseau de partenaires NVIDIA (NPN). Découvrez les options flexibles et abordables qui vous permettront d’accéder aux dernières technologies Data Center de NVIDIA grâce à notre réseau de partenaires.

Accéder au NVIDIA Marketplace

Découvrez les dernières actualités sur l'inférence de l'IA de NVIDIA

Inscrivez-vous pour recevoir les informations et mises à jour les plus récentes de NVIDIA sur l'IA, et plus encore.

Restez informés

Plateforme d'inférence NVIDIA

Comment faire évoluer l'inférence d'IA de manière rentable ?

NVIDIA Vera Rubin inaugure la prochaine avancée en matière d'IA

Les principaux fournisseurs d'inférence réduisent leurs coûts d'IA jusqu'à 10 fois grâce à des modèles open source sur NVIDIA Blackwell

Les performances d'inférence réduisent le coût des jetons

Les performances les plus élevées maximisent les revenus

Le coût des jetons plus bas augmente les taux de marque

La pile complète optimise tous les modèles et cas d'utilisation

L'intégration native accélère le déploiement

Conception conjointe matérielle-logicielle poussée

NVIDIA Vera Rubin NVL72

NVIDIA Grace Blackwell Ultra NVL72

NVIDIA Dynamo

TensorRT LLM

Décodage des performances Paretos

Comment les leaders du secteur stimulent l'innovation avec l'inférence de l'IA

Accelerate Generative AI Performance and Lower Costs

Enhancing Apparel Shopping With AI

Accelerate Customer Satisfaction

Découvrez nos ressources les plus récentes sur l'IA

Démarrez avec l’inférence sur NVIDIA LaunchPad

Parcours d’apprentissage en IA générative et LLM

Démarrez avec l'inférence de l'IA générative sur NVIDIA LaunchPad

Déployer l'IA générative en production avec les microservices NVIDIA NIM

Top 5 des raisons pour lesquelles Triton simplifie l'inférence

NVIDIA dévoile les NIM

Vous voulez vous lancer ?

Trouvez le matériel adapté pour vos charges de travail d'inférence.

Découvrez les dernières actualités sur l'inférence de l'IA de NVIDIA

Suivez l’actualité de NVIDIA dans le domaine de l'IA