Aperçu
L'inférence d'IA, c'est-à-dire la façon dont nous expérimentons l'IA via des chatbots, des copilotes et des outils créatifs, évolue à un rythme exponentiel double. L'adoption par les utilisateurs s'accélère, tandis que les jetons d'IA générés par interaction, basés sur des workflows agentiques, un raisonnement à long terme et des modèles Mixture-of-Experts (MoE), s'envolent.
Pour permettre une inférence de cette ampleur, NVIDIA fournit une architecture à l'échelle des centres de données sur un rythme annuel. Notre conception conjointe de matériel et de logiciels extrêmes permet d'améliorer considérablement les performances et de réduire le coût par jeton, rendant ainsi les expériences d'IA avancées économiquement viables à grande échelle.
NVIDIA GB300 NVL72 offre 50 fois plus de jetons par watt et un coût de jeton 35 fois inférieur à celui de Hopper™, maximisant ainsi les revenus pour un budget énergétique identique et générant des taux de marque plus élevés. Les optimisations logicielles continues permettent d'obtenir des performances maximales à l'échelle des puces, des racks et des Data Centers, améliorant ainsi le retour sur investissement au fil du temps.
Avantages
Grâce à une conception conjointe extrême du matériel et des logiciels, NVIDIA GB300 NVL72 offre 50 fois plus de jetons par watt que Hopper, maximisant ainsi les revenus de l'usine d'IA avec le même budget énergétique. Les optimisations logicielles continues permettent d'obtenir des performances maximales à l'échelle des puces, des racks et des Data Centers, améliorant ainsi le retour sur investissement au fil du temps.
Le système NVIDIA GB300 NVL72 offre un coût par jeton 35 fois inférieur à celui de la plateforme NVIDIA Hopper, permettant ainsi d'augmenter les taux de marque des usines d'IA. À chaque génération, les améliorations des performances dépassent largement les coûts d'infrastructure, améliorant ainsi la rentabilité pour permettre des expériences d'IA avancées à grande échelle.
NVIDIA prend en charge tous les modèles d'IA générative, de ML traditionnel, de calcul scientifique, de biologie et d'IA physique. Des applications en temps réel sensibles à la latence au traitement par lots haut débit, NVIDIA offre les meilleures performances pour tous les cas d'utilisation. Cette plateforme offre une flexibilité et une programmabilité maximales pour choisir la configuration optimale en fonction de l'évolution des charges de travail et des exigences commerciales.
Les logiciels NVIDIA prêts pour la production, notamment Dynamo et TensorRT™ LLM, et l'intégration native avec les principaux frameworks tels que PyTorch, vLLM, SGLang et llm-d, offrent la pile d'inférence d'IA la plus robuste. À mesure que les architectures de modèles et les techniques d'inférence évoluent rapidement, la pile NVIDIA garantit le passage le plus rapide de l'innovation à la production.
Plateforme
Un matériel puissant sans orchestration intelligente gaspille du potentiel, tandis qu'un logiciel de qualité sans matériel rapide délivre des performances d'inférence. La plateforme d'inférence de NVIDIA fournit une solution complète optimisée en continu avec des capacités de calcul, de mise en réseau, de stockage et de logiciels co-conçus pour permettre les performances les plus élevées avec diverses charges de travail.
Découvrez certaines des principales innovations matérielles et logicielles de NVIDIA.
Études de cas
Ressources
Étapes suivantes