Visit your regional NVIDIA website for local content, pricing, and where to buy partners specific to your country.
Inférence
Déployez, exécutez et faites évoluer l’IA pour n’importe quelle application sur n’importe quelle plateforme.
Vidéo | Livre blanc | Pour les développeurs
Exécutez des procédures d’inférence sur des modèles entraînés d’apprentissage automatique ou de Deep Learning à partir de n’importe quel framework et sur tout type de processeur (GPU, CPU ou autre) grâce au serveur d'inférence NVIDIA Triton™. Composant de la plateforme d'IA de NVIDIA et disponible via NVIDIA AI Enterprise, le serveur d’inférence Triton est un logiciel open-source qui standardise le déploiement et l’exécution des modèles d’IA avec toutes les charges de travail.
Obtenez des instructions détaillées sur la manière de traiter efficacement de grands modèles de langage (LLM) avec le serveur d’inférence Triton.
Déployez vos modèles d’IA sur n’importe quel framework majeur avec le serveur d’inférence Triton, notamment TensorFlow, PyTorch, Python, ONNX, NVIDIA® TensorRT™, RAPIDS™ cuML, XGBoost, scikit-learn RandomForest, OpenVINO, custom C++ et bien plus encore.
Maximisez le rendement et l’utilisation de vos ressources avec des fonctionnalités avancées de batching dynamique, d’exécution simultanée, de configuration optimale et de streaming audio ou vidéo. Le serveur d’inférence Triton prend en charge l’ensemble des GPU de NVIDIA, les CPU x86 et ARM ainsi que AWS Inferentia.
Intégrez le serveur d’inférence Triton à des solutions DevOps et MLOps telles que Kubernetes pour la mise à l’échelle et Prometheus pour la supervision. Vous pouvez également l’utiliser avec les principales plateformes d’IA et de MLOps sur site ou dans le Cloud.
NVIDIA AI Enterprise, qui comprend le serveur d’inférence NVIDIA Triton, est une plateforme logicielle d’IA sécurisée et prête pour la production qui a été conçue pour accélérer le délai de retour sur investissement avec des fonctionnalités avancées d’assistance, de sécurité et de stabilité d’API.
Triton fournit une faible latence et un rendement élevé pour l’inférence avec les LLM. Il prend en charge TensorRT-LLM, une bibliothèque open-source pour la définition, l’optimisation et l’exécution des LLM pour l’inférence en production.
Les ensembles de modèles Triton vous permettent d’exécuter des charges de travail d’IA avec une multitude de modèles, de pipelines et d’étapes de pré et post-traitement. Votre environnement Triton est ainsi en mesure d'exécuter différentes parties de l’ensemble sur CPU ou GPU et autorise le recours à de multiples frameworks au sein d’un ensemble.
PyTriton permet aux développeurs Python de mettre en œuvre Triton avec une seule ligne de code et de s’en servir pour exécuter des modèles, des fonctions de traitement simples ou des pipelines d’inférence entiers afin d’accélérer le prototypage et les tests.
L'analyseur de modèles vous permet de déterminer plus rapidement la configuration optimale pour le déploiement d’un modèle, notamment en termes de taille de batch, de précision et d’instances simultanées. Cet outil vous aide à choisir la meilleure configuration pour répondre à différents besoins en matière de latence, de rendement et de mémoire.
Ayez recours aux outils appropriés pour déployer, exécuter et faire évoluer n’importe quelle application d'IA sur n’importe quelle plateforme.
Si vous souhaitez accéder au code open-source et aux conteneurs de Triton à des fins de développement, deux options gratuites s’offrent à vous :
Utilisez du code open-source Accédez à des logiciels open-source sur GitHub avec des exemples de bout en bout.
Téléchargez un conteneur Faites votre choix parmi les conteneurs Linux du serveur d’inférence Triton pour x86 et Arm® sur NVIDIA NGC™.
Pour les entreprises qui souhaitent tester Triton avant d’acheter des produits NVIDIA AI Enterprise pour la production, deux options s’offrent à vous :
Sans infrastructure Si vous ne disposez pas d'une infrastructure existante, NVIDIA vous propose des ateliers pratiques et gratuits via NVIDIA LaunchPad.
Avec infrastructure Si vous disposez d’une infrastructure existante, NVIDIA vous propose une licence d’évaluation gratuite de 90 jours pour NVIDIA AI Enterprise.
Le serveur d’inférence NVIDIA Triton simplifie le déploiement en toute évolutivité des modèles d’IA pour la production, en permettant aux équipes spécialisées de déployer des modèles d’IA entraînés sur n’importe quelle infrastructure basée sur GPU ou sur GPU.
Cette vidéo vous explique comment déployer le pipeline Stable Diffusion disponible via la bibliothèque de diffusion fournie par HuggingFace. Dans cette vidéo de démonstration, nous utilisons le serveur d’inférence Triton pour déployer et exécuter le pipeline.
Le serveur d’inférence Triton est une solution d’inférence open-source qui standardise le déploiement des modèles et permet une mise en production rapide et évolutive de l'IA. En raison de ses nombreuses fonctionnalités, une question se pose naturellement : par où commencer ? Regardez notre vidéo pour tout savoir.
Vous débutez avec le serveur d’inférence Triton et vous souhaitez déployer votre modèle plus rapidement ? Utilisez ce guide de démarrage rapide pour commencer à utiliser le plein potentiel de Triton.
La mise en service de Triton peut soulever de nombreuses questions. Explorez ce dépôt pour vous familiariser avec les fonctionnalités de Triton et trouvez des guides et des exemples qui peuvent faciliter votre migration.
Suivez nos ateliers pratiques pour mettre en œuvre votre initiative d'IA de manière rapide et évolutive grâce au serveur d’inférence NVIDIA Triton. Vous allez pouvoir exploiter immédiatement tous les avantages de l’infrastructure de calcul accéléré de NVIDIA et faire évoluer vos charges de travail d’IA.
Consultez les dernières mises à jour et annonces relatives au serveur d'inférence Triton.
Consultez nos présentations techniques pour savoir comment démarrer avec l’inférence.
Obtenez des astuces et des conseils sur le déploiement, l’exécution et la mise à l’échelle des modèles d’IA pour l’inférence dans des domaines comme l’IA générative, les LLM, les systèmes de recommandation, la vision par ordinateur et bien plus encore.
Traitez efficacement vos LLM avec le serveur d’inférence Triton en suivant des instructions détaillées. Nous vous expliquerons comment déployer facilement un LLM sur plusieurs backends tout en comparant leurs performances, mais aussi comment paramétrer avec précision vos configurations de déploiement pour obtenir des performances optimales.
Obtenez plus d’informations sur l’inférence des modèles d'IA, sur les principaux défis du déploiement de l’IA dans les entreprises et sur les différents avantages d'une solution d'inférence Full-Stack pour l'IA, mais aussi sur le déploiement de votre première solution d’inférence dédiée à l'IA.
Découvrez comment la plateforme d’inférence IA de NVIDIA s’intègre en toute transparence aux principales solutions des fournisseurs de services Cloud pour simplifier le déploiement et accélérer la mise en œuvre des cas d’utilisation de l’IA reposant sur les LLM.
Découvrez comment les services de vision par ordinateur et de science des données d'Oracle Cloud Infrastructure permettent d'accélérer les prévisions alimentées par l'IA avec le serveur d'inférence NVIDIA Triton.
Apprenez comment l'entreprise ControlExpert s’est tournée vers les solutions d’IA de NVIDIA pour développer une solution de gestion des sinistres de bout en bout qui permet à ses clients de bénéficier d’un service après-vente en continu.
Découvrez comment Wealthsimple a utilisé la plateforme d’inférence IA de NVIDIA pour réduire le délai de déploiement des modèles d'IA de plusieurs mois à 15 minutes seulement.
Rejoignez la communauté en ligne de NVIDIA Triton pour y poser des questions pratiques, consulter des recommandations, interagir avec d’autres développeurs et signaler des bugs.
Connectez-vous à des millions de développeurs qui partagent les mêmes idées que vous et accédez à des centaines de conteneurs, de modèles et de SDK accélérés par GPU (autant d’outils nécessaires pour concevoir avec succès des applications novatrices reposant sur la technologie de NVIDIA), grâce au programme de NVIDIA pour les développeurs.
Découvrez NVIDIA Inception, le programme gratuit pour les startups de pointe, et son offre d'assistance marketing, d'expertise technique, de formations exclusives et d'opportunités de financement.
Ayez recours aux outils appropriés pour déployer, exécuter et faire évoluer n’importe quelle application d'IA sur n’importe quelle plateforme, ou accédez à d'autres ressources de développement.
Discutez avec un spécialiste des produits NVIDIA pour savoir comment passer du stade de pilote à la phase de production en bénéficiant de la sécurité, de la stabilité d'API et du support de NVIDIA AI Enterprise.
Inscrivez-vous pour recevoir les dernières informations et annonces de NVIDIA.