Le serveur d’inférence NVIDIA Triton, auparavant connu sous le nom de serveur d’inférence TensorRT, est une solution logicielle open-source qui simplifie le déploiement des modèles de Deep Learning en production. Le serveur d’inférence Triton permet aux équipes de déployer des modèles d'IA entraînés via n’importe quel framework (TensorFlow, PyTorch, TensorRT Plan, Caffe, MXNet ou un framework personnalisé) en stockage local, sur la plateforme Google Cloud ou via AWS S3 sur n'importe quelle infrastructure basée sur GPU ou sur CPU. Triton permet d’exécuter simultanément plusieurs modèles sur un seul GPU afin d’en optimiser l’utilisation et s'intègre à Kubernetes pour prendre en charge l’orchestration, les métriques et la mise à l’échelle automatique.