La plateforme d’inférence de NVIDIA fournit toutes les performances, l’efficacité et la réactivité requises par la nouvelle génération de services et de produits basés sur l’IA pour les services Cloud, les Data Centers, les systèmes Edge et les machines autonomes.
Le serveur d’inférence NVIDIA Triton™ est une solution logicielle open-source qui simplifie et accélère le déploiement des modèles d’IA en production. Triton permet aux équipes de déployer des modèles d'IA entraînés via n’importe quel framework (incluant TensorFlow, PyTorch, XgBoost, Python et d’autres) sur n'importe quelle infrastructure basée sur GPU ou sur CPU. Ce serveur d’inférence maximise l’utilisation du GPU et du CPU tout en offrant un rendement élevé avec une latence réduite. Il s'intègre à Kubernetes pour prendre en charge l’orchestration, les métriques et la mise à l’échelle automatique.