Optimisez les performances des charges de travail d'IA sur l'infrastructure d'IA de NVIDIA
Aperçu
L'Analyse comparative des performances NVIDIA est une suite d'outils, de recettes et de services qui simplifient la mesure des performances des charges de travail et des infrastructures d'IA. L'Analyse comparative des performances NVIDIA fournit un moyen standardisé et objectif d'évaluer les performances sur toutes les plateformes, ce qui est essentiel pour optimiser les charges de travail d'IA et accélérer les résultats.
Optimisez les performances des charges de travail d'IA sur n'importe quelle infrastructure NVIDIA grâce à la suite d'outils, de services et de recettes de l'Analyse comparative des performances NVIDIA.
Grâce à Performance Explorer, les utilisateurs peuvent identifier le nombre idéal de GPU afin de minimiser le temps et les coûts d'entraînement. L'objectif est d'identifier le nombre approprié de GPU pour maximiser les performances et minimiser les coûts sur une charge de travail donnée, quel que soit le projet ou l'équipe.
Tirez le meilleur parti de vos environnements de charge de travail d'IA et libérez tout le potentiel de votre infrastructure d'IA avec l'Analyse comparative des performances NVIDIA.
Déterminez quelle plateforme peut fournir le temps d'entraînement le plus rapide ou le nombre de GPU souhaité et à quel coût en utilisant des données de performance en temps réel et de bout en bout.
Réglez et optimisez vos charges de travail d'IA en fonction de métriques de bout en bout adaptées aux performances des applications d'IA générative modernes.
Profitez d'une évaluation qui va plus loin que les seuls GPU, pour inclure notamment les logiciels d'infrastructure, les plateformes Cloud et les configurations d'applications afin d'obtenir un aperçu global des performances des charges de travail.
Profitez d'un moyen standardisé et objectif d'évaluer les performances des plateformes et apprenez à estimer les performances attendues pour des charges de travail ou des cas d'utilisation donnés.
Dans le benchmark MLPerf Inference v6.0 (avril 2026), les systèmes alimentés par des GPU NVIDIA Blackwell Ultra (GB300 NVL72) ont offert le débit le plus élevé dans la gamme la plus large de modèles et de scénarios. Sur DeepSeek-R1, la carte GB300 NVL72 a atteint un débit de 2,5 millions de jetons par seconde, soit un débit jusqu’à 2,7 fois supérieur à celui enregistré lors des premiers tests de la GB300 NVL72 six mois plus tôt, grâce aux mises à jour logicielles de TensorRT-LLM.
Pour mesurer la rentabilité de l'inférence IA, vous devez prendre en compte d'autres facteurs que le prix de la puissance de calcul ou le nombre de FLOP par dollar, car ces indicateurs ne donnent qu'une vision partielle de la situation. L'indicateur le plus important pour évaluer la rentabilité de l'inférence en IA n'est autre que le coût par jeton, c'est-à-dire le rapport qualité-prix réellement obtenu, en particulier pour les modèles MoE et les modèles de raisonnement. NVIDIA GB300 NVL72 fournit une inférence par l'IA pour 0,123 dollar par million de jetons avec un taux de 116 TPS par interactivité utilisateur à l'aide de NVIDIA Dynamo et de TensorRT™-LLM, soit le coût par jeton le plus bas parmi les principales plateformes, selon les benchmarks SemiAnalysis InferenceX en avril 2026.
Selon les benchmarks InferenceX réalisés par SemiAnalysis en avril 2026, la NVIDIA Blackwell B200 affiche un coût de 0,02 dollar par million de jetons sur le modèle GPT-OSS-120B avec TensorRT-LLM, soit cinq fois moins que le coût de 0,11 dollar par million de jetons enregistré le jour de son lancement, et ce uniquement grâce à l'optimisation logicielle.
NVIDIA B300 (Blackwell Ultra) a été conçu pour répondre aux besoins accrus en capacité de calcul et de mémoire liés aux inférences par l'IA pour le contexte long et le raisonnement. Grâce à une multiplication par 1,5 des performances FP4 denses, à une multiplication par 2 des performances d'attention et à une mémoire HBM 1,5 fois plus importante que celles du NVIDIA B200, le B300 est capable d'augmenter le débit de raisonnement IA pour les longueurs de contexte les plus importantes. NVIDIA GB300 NVL72 fournit une inférence par l'IA pour 0,123 dollar par million de jetons avec un taux de 116 TPS par interactivité utilisateur à l'aide de NVIDIA Dynamo et de TensorRT™-LLM, soit le coût par jeton le plus bas parmi les principales plateformes, selon les benchmarks SemiAnalysis InferenceX en avril 2026.
Quelques benchmarks d'inférence d'IA indépendants tiers sont aujourd'hui largement utilisés dans le secteur. MLPerf Inference est le benchmark standard du secteur de MLCommons. Il mesure le débit et la latence pour les charges de travail standardisées. InferenceX, développé par SemiAnalysis, est le premier benchmark indépendant pour mesurer le coût total de calcul sur divers modèles et scénarios réels. InferenceX v2 étend cette possibilité pour effectuer un benchmark sur l'ensemble de l'optimum de Pareto. En avril 2026, NVIDIA Blackwell Ultra (GB300 NVL72) arrive en tête des trois suites de benchmarks.
Atteignez des performances de charge de travail d'IA optimales par coût total de possession en partenariat avec NVIDIA avec des analyses comparatives validées basées sur les données.
Accédez à de la documentation technique sur les logiciels modulaires qui aident nos partenaires à exploiter une infrastructure d'IA et à fournir des services d'IA.