Inférence

Serveur d’inférence NVIDIA Triton

Déployez, exécutez et faites évoluer l’IA pour n’importe quelle application sur n’importe quelle plateforme.

Vidéo | Livre blanc | Pour les développeurs

Aperçu
Avantages
Adoptants
Webinaires
Ressources

Aperçu
Avantages
Adoptants
Webinaires
Ressources

Exploitez l'inférence avec toutes vos charges de travail d’IA

Exécutez des procédures d’inférence sur des modèles entraînés d’apprentissage automatique ou de Deep Learning à partir de n’importe quel framework et sur tout type de processeur (GPU, CPU ou autre) grâce au serveur d'inférence NVIDIA Triton™. Composant de la plateforme d'IA de NVIDIA et disponible via NVIDIA AI Enterprise, le serveur d’inférence Triton est un logiciel open-source qui standardise le déploiement et l’exécution des modèles d’IA avec toutes les charges de travail.

Déploiement, optimisation et benchmarking des LLM

Obtenez des instructions détaillées sur la manière de traiter efficacement de grands modèles de langage (LLM) avec le serveur d’inférence Triton.

Suivre la session

Avantages du serveur d’inférence Triton

Compatibilité avec tous les frameworks d’entraînement et d’inférence

Déployez vos modèles d’IA sur n’importe quel framework majeur avec le serveur d’inférence Triton, notamment TensorFlow, PyTorch, Python, ONNX, NVIDIA® TensorRT™, RAPIDS™ cuML, XGBoost, scikit-learn RandomForest, OpenVINO, custom C++ et bien plus encore.

Inférence à hautes performances sur toutes les plateformes

Maximisez le rendement et l’utilisation de vos ressources avec des fonctionnalités avancées de batching dynamique, d’exécution simultanée, de configuration optimale et de streaming audio ou vidéo. Le serveur d’inférence Triton prend en charge l’ensemble des GPU de NVIDIA, les CPU x86 et ARM ainsi que AWS Inferentia.

Philosophie open-source et conception DevOps/MLOps

Intégrez le serveur d’inférence Triton à des solutions DevOps et MLOps telles que Kubernetes pour la mise à l’échelle et Prometheus pour la supervision. Vous pouvez également l’utiliser avec les principales plateformes d’IA et de MLOps sur site ou dans le Cloud.

Fonctionnalités de sécurité, de gestion et de stabilité d'API pour les entreprises

NVIDIA AI Enterprise, qui comprend le serveur d’inférence NVIDIA Triton, est une plateforme logicielle d’IA sécurisée et prête pour la production qui a été conçue pour accélérer le délai de retour sur investissement avec des fonctionnalités avancées d’assistance, de sécurité et de stabilité d’API.

Découvrez les fonctionnalités et les outils du serveur d’inférence NVIDIA Triton

Inférence avec de grands modèles de langage

Triton fournit une faible latence et un rendement élevé pour l’inférence avec les LLM. Il prend en charge TensorRT-LLM, une bibliothèque open-source pour la définition, l’optimisation et l’exécution des LLM pour l’inférence en production.

Ensembles de modèles

Les ensembles de modèles Triton vous permettent d’exécuter des charges de travail d’IA avec une multitude de modèles, de pipelines et d’étapes de pré et post-traitement. Votre environnement Triton est ainsi en mesure d'exécuter différentes parties de l’ensemble sur CPU ou GPU et autorise le recours à de multiples frameworks au sein d’un ensemble.

NVIDIA PyTriton

PyTriton permet aux développeurs Python de mettre en œuvre Triton avec une seule ligne de code et de s’en servir pour exécuter des modèles, des fonctions de traitement simples ou des pipelines d’inférence entiers afin d’accélérer le prototypage et les tests.

Analyseur de modèles de NVIDIA Triton

L'analyseur de modèles vous permet de déterminer plus rapidement la configuration optimale pour le déploiement d’un modèle, notamment en termes de taille de batch, de précision et d’instances simultanées. Cet outil vous aide à choisir la meilleure configuration pour répondre à différents besoins en matière de latence, de rendement et de mémoire.

Adoptants majeurs dans tous les secteurs

Clients
Intégrations d'écosystèmes

Démarrez avec NVIDIA Triton

Ayez recours aux outils appropriés pour déployer, exécuter et faire évoluer n’importe quelle application d'IA sur n’importe quelle plateforme.

Commencez à développer avec du code ou des conteneurs

Si vous souhaitez accéder au code open-source et aux conteneurs de Triton à des fins de développement, deux options gratuites s’offrent à vous :

Utilisez du code open-source
Accédez à des logiciels open-source sur GitHub avec des exemples de bout en bout.

Accéder au dépôt GitHub

Téléchargez un conteneur
Faites votre choix parmi les conteneurs Linux du serveur d’inférence Triton pour x86 et Arm® sur NVIDIA NGC™.

Accéder aux conteneurs

Essayez avant d’acheter

Pour les entreprises qui souhaitent tester Triton avant d’acheter des produits NVIDIA AI Enterprise pour la production, deux options s’offrent à vous :

Sans infrastructure
Si vous ne disposez pas d'une infrastructure existante, NVIDIA vous propose des ateliers pratiques et gratuits via NVIDIA LaunchPad.

Accéder à des
ateliers pratiques

Avec infrastructure
Si vous disposez d’une infrastructure existante, NVIDIA vous propose une licence d’évaluation gratuite de 90 jours pour NVIDIA AI Enterprise.

Demander un essai
de 90 jours

Comparez les options

Ressources

Top 5 des raisons pour lesquelles Triton contribue à simplifier l’inférence

Le serveur d’inférence NVIDIA Triton simplifie le déploiement en toute évolutivité des modèles d’IA pour la production, en permettant aux équipes spécialisées de déployer des modèles d’IA entraînés sur n’importe quelle infrastructure basée sur GPU ou sur GPU.

Voir maintenant

Déployez le pipeline Stable Diffusion de HuggingFace avec Triton

Cette vidéo vous explique comment déployer le pipeline Stable Diffusion disponible via la bibliothèque de diffusion fournie par HuggingFace. Dans cette vidéo de démonstration, nous utilisons le serveur d’inférence Triton pour déployer et exécuter le pipeline.

Voir la vidéo

Commencez à utiliser le serveur d’inférence NVIDIA Triton

Le serveur d’inférence Triton est une solution d’inférence open-source qui standardise le déploiement des modèles et permet une mise en production rapide et évolutive de l'IA. En raison de ses nombreuses fonctionnalités, une question se pose naturellement : par où commencer ? Regardez notre vidéo pour tout savoir.

Voir la vidéo

Guide de démarrage rapide

Vous débutez avec le serveur d’inférence Triton et vous souhaitez déployer votre modèle plus rapidement ? Utilisez ce guide de démarrage rapide pour commencer à utiliser le plein potentiel de Triton.

Lire maintenant

Didacticiels

La mise en service de Triton peut soulever de nombreuses questions. Explorez ce dépôt pour vous familiariser avec les fonctionnalités de Triton et trouvez des guides et des exemples qui peuvent faciliter votre migration.

Lire maintenant

NVIDIA LaunchPad

Suivez nos ateliers pratiques pour mettre en œuvre votre initiative d'IA de manière rapide et évolutive grâce au serveur d’inférence NVIDIA Triton. Vous allez pouvoir exploiter immédiatement tous les avantages de l’infrastructure de calcul accéléré de NVIDIA et faire évoluer vos charges de travail d’IA.

Suivez l'actualité de l'IA

Consultez les dernières mises à jour et annonces relatives au serveur d'inférence Triton.

Voir tous les articles sur Triton

Lisez nos articles techniques

Consultez nos présentations techniques pour savoir comment démarrer avec l’inférence.

Voir tous les articles techniques sur les LLM

Enrichissez vos connaissances

Obtenez des astuces et des conseils sur le déploiement, l’exécution et la mise à l’échelle des modèles d’IA pour l’inférence dans des domaines comme l’IA générative, les LLM, les systèmes de recommandation, la vision par ordinateur et bien plus encore.

Lire maintenant

Déploiement, optimisation et benchmarking des LLM

Traitez efficacement vos LLM avec le serveur d’inférence Triton en suivant des instructions détaillées. Nous vous expliquerons comment déployer facilement un LLM sur plusieurs backends tout en comparant leurs performances, mais aussi comment paramétrer avec précision vos configurations de déploiement pour obtenir des performances optimales.

Suivre cette session GTC à la demande

Faites passer les cas d’utilisation de l’IA du développement à la production

Obtenez plus d’informations sur l’inférence des modèles d'IA, sur les principaux défis du déploiement de l’IA dans les entreprises et sur les différents avantages d'une solution d'inférence Full-Stack pour l'IA, mais aussi sur le déploiement de votre première solution d’inférence dédiée à l'IA.

Suivre cette session à la demande

Exploitez le plein potentiel des solutions d’inférence IA dans le Cloud

Découvrez comment la plateforme d’inférence IA de NVIDIA s’intègre en toute transparence aux principales solutions des fournisseurs de services Cloud pour simplifier le déploiement et accélérer la mise en œuvre des cas d’utilisation de l’IA reposant sur les LLM.

Suivre cette session à la demande

Oracle Cloud

NVIDIA Triton accélère l’inférence sur Oracle Cloud

Découvrez comment les services de vision par ordinateur et de science des données d'Oracle Cloud Infrastructure permettent d'accélérer les prévisions alimentées par l'IA avec le serveur d'inférence NVIDIA Triton.

ControlExpert

Révolutionnez la gestion des sinistres automobiles

Apprenez comment l'entreprise ControlExpert s’est tournée vers les solutions d’IA de NVIDIA pour développer une solution de gestion des sinistres de bout en bout qui permet à ses clients de bénéficier d’un service après-vente en continu.

Wealthsimple

Accélération de l’inférence et de la livraison de modèles d’apprentissage automatique

Découvrez comment Wealthsimple a utilisé la plateforme d’inférence IA de NVIDIA pour réduire le délai de déploiement des modèles d'IA de plusieurs mois à 15 minutes seulement.

Autres études de cas

Forum en ligne Triton

Rejoignez la communauté en ligne de NVIDIA Triton pour y poser des questions pratiques, consulter des recommandations, interagir avec d’autres développeurs et signaler des bugs.

Rejoindre la communauté

Programme NVIDIA Développeurs

Connectez-vous à des millions de développeurs qui partagent les mêmes idées que vous et accédez à des centaines de conteneurs, de modèles et de SDK accélérés par GPU (autant d’outils nécessaires pour concevoir avec succès des applications novatrices reposant sur la technologie de NVIDIA), grâce au programme de NVIDIA pour les développeurs.

Rejoindre le programme Développeurs

Accélérez votre startup

Découvrez NVIDIA Inception, le programme gratuit pour les startups de pointe, et son offre d'assistance marketing, d'expertise technique, de formations exclusives et d'opportunités de financement.

En savoir plus et postuler

Étapes suivantes

Vous voulez vous lancer ?

Ayez recours aux outils appropriés pour déployer, exécuter et faire évoluer n’importe quelle application d'IA sur n’importe quelle plateforme, ou accédez à d'autres ressources de développement.

Contactez-nous

Discutez avec un spécialiste des produits NVIDIA pour savoir comment passer du stade de pilote à la phase de production en bénéficiant de la sécurité, de la stabilité d'API et du support de NVIDIA AI Enterprise.

Nous contacter

Suivez l'actualité du serveur d’inférence NVIDIA Triton

Inscrivez-vous pour recevoir les dernières informations et annonces de NVIDIA.

S'inscrire