Serveur d’inférence NVIDIA Triton

Déployez, exécutez et faites évoluer l’IA pour n’importe quelle application sur n’importe quelle plateforme. 

Exploitez l'inférence avec toutes vos charges de travail d’IA

Exécutez des procédures d’inférence sur des modèles entraînés d’apprentissage automatique ou de Deep Learning à partir de n’importe quel framework et sur tout type de processeur (GPU, CPU ou autre) grâce au serveur d’inférence NVIDIA Triton™. Composant de la plateforme d'IA de NVIDIA et disponible via NVIDIA AI Enterprise, le serveur d’inférence Triton est un logiciel open-source qui standardise le déploiement et l’exécution des modèles d’IA avec toutes les charges de travail. 

Découvrez les avantages du serveur d’inférence Triton

Compatibilité avec tous les frameworks d’entraînement et d’inférence

Déployez vos modèles d’IA sur n’importe quel framework majeur avec le serveur d’inférence Triton, notamment TensorFlow, PyTorch, Python, ONNX, NVIDIA® TensorRT, RAPIDS™ cuML, XGBoost, scikit-learn RandomForest, OpenVINO, custom C++ et bien plus encore.

Inférence à hautes performances sur toutes les plateformes

Maximisez le rendement et l’utilisation de vos ressources avec des fonctionnalités avancées de batching dynamique, d’exécution simultanée, de configuration optimale et de streaming audio ou vidéo. Le serveur d’inférence Triton prend en charge l’ensemble des GPU de NVIDIA, les CPU x86 et ARM® ainsi que AWS Inferentia. 

Philosophie open-source et conception DevOps/MLOps

Intégrez le serveur d’inférence Triton à des solutions DevOps et MLOps telles que Kubernetes pour la mise à l’échelle et Prometheus pour la supervision. Vous pouvez également l’utiliser avec les principales plateformes d’IA et de MLOps sur site ou dans le Cloud. 

Fonctionnalités de sécurité, de gestion et de stabilité d'API pour les entreprises

NVIDIA AI Enterprise, qui comprend le serveur d’inférence NVIDIA Triton et le service de gestion Triton, est une plateforme logicielle d’IA sécurisée et prête pour la production qui a été conçue pour accélérer le délai de retour sur investissement avec des fonctionnalités avancées d’assistance, de sécurité et de stabilité d’API. 

Démarrez avec Triton

Achetez NVIDIA AI Enterprise avec Triton pour les déploiements de production

Faites l'acquisition de NVIDIA AI Enterprise, qui comprend le serveur d'inférence NVIDIA Triton et le service de gestion Triton, pour exécuter vos procédures d'inférence dédiées à la production.

Téléchargez du code et des conteneurs pour le développement

Les conteneurs du serveur d’inférence Triton sont disponibles sur NVIDIA NGC™ ou en tant que code open-source sur GitHub.

Service de gestion Triton

Automatisez le déploiement d’instances multiples du serveur d’inférence Triton dans Kubernetes avec une orchestration des modèles économe en ressources sur les GPU et CPU.

Fonctionnalités et outils

Inférence avec de grands modèles de langage

TensorRT-LLM, disponible en accès anticipé, est une bibliothèque open-source pour la définition, l’optimisation et l’exécution de grands modèles de langage (LLM) dans le cadre de l’inférence en production. Elle reprend les fonctionnalités-clés de FasterTransformer et du compilateur TensorRT pour le Deep Learning au sein d’une API Python open-source, ce qui permet de prendre en charge rapidement de nouveaux modèles et personnalisations.

Ensembles de modèles

De nombreuses charges de travail d’IA modernes requièrent l’exécution de plusieurs modèles, avec différentes étapes de pré et de post-traitement pour chaque requête. Triton, qui prend en charge les ensembles de modèles et les pipelines, est en mesure d'exécuter différentes parties de l’ensemble sur CPU ou GPU et autorise le recours à de multiples frameworks au sein d’un ensemble.

Modèles à arborescence

Le backend FIL (Forest Inference Library) intégré à Triton fournit un support avancé des inférences sur les modèles à arborescence avec des fonctionnalités d’explicabilité (valeurs SHAP) sur CPU et GPU. Il prend en charge les modèles XGBoost, LightGBM, scikit-learn RandomForest, RAPIDS cuML RandomForest et bien d’autres au format Treelite.

NVIDIA PyTriton

PyTriton propose une interface simple d'accès qui permet aux développeurs de Python d’utiliser Triton pour tout type de traitement : modèles, fonctions de traitement simples ou pipelines d’inférence entiers. Cette prise en charge native de Triton dans Python accélère le test et le prototypage des modèles d’apprentissage automatique en garantissant un maximum de performance et d’efficacité. Les fonctionnalités majeures de Triton peuvent être exploitées via une seule ligne de code, ce qui vous donne accès à de nombreux avantages comme le batching dynamique, l’exécution simultanée des modèles et la prise en charge des configurations GPU et CPU. Vous n’avez ainsi plus besoin de configurer des dépôts de modèles ni de convertir les formats de vos modèles. Le code existant du pipeline d’inférence peut en outre être utilisé sans la moindre modification.

Analyseur de modèles de NVIDIA Triton

L’analyseur de modèles Triton évalue automatiquement les configurations de déploiement des modèles dans le serveur d’inférence Triton, notamment la taille, la précision et le nombre d’instances d’exécution simultanées sur le processeur-cible. Cet outil vous aide à sélectionner la configuration optimale pour répondre aux différentes contraintes de qualité de service (QoS) de vos applications (telles que la latence, le rendement et la mémoire) tout en réduisant les délais de recherche de la configuration optimale. L'analyseur prend également en charge les ensembles de modèles et l’analyse multi-modèles.

Études de cas

Découvrez comment Amazon a amélioré la satisfaction de ses clients grâce aux solutions d'IA de NVIDIA en accélérant ses procédures d'inférence jusqu'à 5 fois.

Apprenez comment American Express a amélioré la détection des fraudes en analysant des dizaines de millions de transactions quotidiennes jusqu’à 50 fois plus vite.

Informez-vous sur la manière dont Siemens Energy a optimisé ses inspections en fournissant une surveillance à distance basée sur l'IA pour détecter les fuites, les bruits anormaux et bien plus encore.

Apprenez comment Microsoft Teams a utilisé le serveur d’inférence Triton pour optimiser le sous-titrage en direct et la transcription dans plusieurs langues avec une latence réduite.

Apprenez comment NIO a mis en œuvre un workflow d’inférence à faible latence en intégrant le serveur d’inférence NVIDIA Triton à son pipeline d’inférence pour les véhicules autonomes.

Intégrations d'écosystèmes

Autres ressources

Suivez une initiation

Découvrez les principales fonctionnalités du serveur d’inférence Triton qui vous aideront à déployer, exécuter et mettre à l’échelle des modèles d’IA en toute simplicité.

L'avis des experts

Suivez des sessions de la GTC sur l’inférence et découvrez comment bien démarrer avec le serveur d’inférence Triton. 

Lisez des articles techniques

Consultez notre blog sur le serveur d’inférence Triton. 

Consultez notre eBook

Prenez connaissance des dernières avancées de l’inférence reposant sur l’IA, de différents cas d’utilisation en matière de mise en production, mais aussi des principaux défis et solutions de l’industrie. 

Restez au courant des dernières nouveautés de NVIDIA en matière d'inférence de l'IA.