Plateforme d’inférence NVIDIA TensorRT Hyperscale

Alimente la nouvelle vague des services optimisés par l’IA

Les services à base IA doivent prendre en charge des volumes exponentiels de données tout en fournissant des résultats le plus rapidement possible. Répondez à tous les défis du calcul haute performance grâce à l’association de NVIDIA® Tesla® et de NVIDIA TensorRT, la plateforme d’inférence pour Data Center la plus rapide et la plus efficace au monde. Les GPU Tesla peuvent prendre en charge tout type de workflow pour vous aider à déployer la solution d'inférence optimale. Ils vous fournissent un rendement, une polyvalence et une efficacité énergétique sans précédent pour que vous puissiez concevoir et proposer à vos utilisateurs de toutes nouvelles expériences IA. NVIDIA TensorRT - qui exploite le plein potentiel des GPU Tesla dans une grande variété de champs d’application comme le streaming vidéo, la reconnaissance vocale et les systèmes de recommandation - vous fournit des bases solides pour l’exploitation du SDK NVIDIA DeepStream.

PRODUITS D’INFÉRENCE NVIDIA POUR DATA CENTER

TESLA T4

Le GPU NVIDIA®T4 accélère une grande variété de charges de travail dans le Cloud telles que le calcul haute performance, l’entraînement et l’inférence Deep Learning, le Machine Learning, l’analyse de données et le traitement graphique. Basé sur la nouvelle architecture NVIDIA Turing(™) et reposant sur une configuration PCIe compacte à faible consommation (70 Watts), le NVIDIA T4 a été spécialement optimisé pour les environnements de calcul sur serveur Scale-Out. Il fournit des capacités de calcul multi-précision sans précédent grâce à ses cœurs Tensor et RT et, combiné aux conteneurs logiciels accélérés de NVIDIA NGC, le T4 délivre des performances à l’échelle tout simplement révolutionnaires.

deep-learning-ai-inference-platform-t4-background-2560-0912-ud

TESLA T4

Le GPU NVIDIA® Tesla® T4 est l’accélérateur d’inférences le plus avancé au monde. Propulsé par des cœurs Tensor et l’architecture Turing, il fournit des performances multi-précision révolutionnaires pour accélérer une grande variété d’applications IA modernes. Fort d’une configuration PCIe compacte à faible consommation (75 Watts), cet accélérateur a été optimisé pour les serveurs Scale-Out et conçu afin de fournir des performances d’inférence de pointe en temps réel.

TESLA V100
Pour Data Centers universels

Avec plus de 125 téraflops de performances d’inférence par GPU, un seul serveur équipé de huit accélérateurs Tesla V100 peut fournir une puissance pouvant atteindre 1 pétaflop pour le calcul haute performance.

TESLA P4
Pour serveurs Scale-Out à haute efficacité

Le Tesla P4 accélère tout type de serveur Scale-Out en fournissant 60 fois plus d'efficacité énergétique qu'un serveur équipé uniquement de CPU.

TESLA P40
Pour serveurs d’inférence à haut rendement

L’accélérateur Tesla P40 fournit des performances d’inférence exceptionnelles avec des opérations INT8 à haute précision et 24 Go de mémoire dédiée pour un rendement maximal.

LOGICIELS NVIDIA POUR LE CALCUL SUR DATA CENTER

NVIDIA TensorRT

NVIDIA TensorRT est une plateforme programmable à hautes performances pour l’accélération des inférences sur les réseaux neuronaux qui, par rapport aux configurations CPU, peut accélérer jusqu’à 40 fois des applications spécialisées dans des domaines comme la reconnaissance vocale, les systèmes de recommandation ou la traduction assistée par ordinateur. TensorRT permet aux développeurs d’optimiser leurs modèles de réseaux neuronaux avant de les calibrer pour bénéficier d’un maximum de précision et de les déployer dans des environnements de production sur des Data Centers d’entreprise ou Hyperscale.

Serveur d’inférence NVIDIA Triton

Le serveur d’inférence NVIDIA Triton, auparavant connu sous le nom de serveur d’inférence TensorRT, est une solution logicielle open-source qui simplifie le déploiement des modèles de Deep Learning en production. Le serveur d’inférence Triton permet aux équipes de déployer des modèles d'IA entraînés via n’importe quel framework (TensorFlow, PyTorch, TensorRT Plan, Caffe, MXNet ou un framework personnalisé) en stockage local, sur la plateforme Google Cloud ou via AWS S3 sur n'importe quelle infrastructure basée sur GPU ou sur CPU. Triton permet d’exécuter simultanément plusieurs modèles sur un seul GPU afin d’en optimiser l’utilisation et s'intègre à Kubernetes pour prendre en charge l’orchestration, les métriques et la mise à l’échelle automatique.

Kubernetes sur les GPU NVIDIA

Kubernetes sur les GPU NVIDIA permet aux entreprises de faire évoluer sans interruption leurs workflows d’entraînement et d’inférence sur des clusters multi-GPU dans le Cloud. Kubernetes vous aide à déployer instantanément des applications Deep Learning et HPC accélérées par GPU sur des clusters multi-GPU exploités dans le Cloud.

Kit de développement DeepStream

NVIDIA DeepStream pour Tesla est un kit de développement logiciel dédié à la conception d’applications évolutives d’analyse vidéo intelligente (IVA) basées sur le Deep Learning pour les villes connectées et les Data Centers Hyperscale. DeepStream exploite la plateforme NVIDIA TensorRT pour l’inférence, le kit Video Codec pour le transcodage et le prétraitement vidéo, et des API de curation des données tirant profit de la puissance des GPU Tesla. Grâce aux GPU Tesla P4, vous pouvez par exemple décoder et analyser simultanément jusqu’à 30 flux vidéo HD en temps réel.

CARACTÉRISTIQUES ET AVANTAGES

La plateforme d’inférence IA la plus avancée

Propulsé par des cœurs Tensor et l’architecture Turing, le GPU NVIDIA Tesla T4 fournit un excellent rendement énergétique et des performances FP32, FP16, INT8 et INT4 sans précédent pour l’entraînement et l’inférence. Avec une puissance brute de 130 TOPs (téra-opérations par seconde) pour les opérations INT8 et 260 TOPs pour les opérations INT4, le Tesla T4 fournit l’efficacité la plus élevée de l’industrie pour les workflows d’inférence (grâce notamment à un rendement énergétique jusqu’à 40 fois plus important que les configurations basées sur le traitement CPU, tout ceci avec une consommation 60% plus faible). Sa consommation record de seulement 75 Watts en fait la solution idéale pour les serveurs Scale-Out sur systèmes Edge.

Rendement 24 fois plus élevé pour gérer des volumes de données exponentiels

Les GPU Tesla V100 à architecture NVIDIA Volta™ améliorent le rendement des workflows Deep Learning de manière significative et permettent de collecter des ressources exploitables à partir de l’avalanche de données que nous générons quotidiennement. Un serveur équipé d’un GPU Tesla V100 peut remplacer jusqu’à 50 serveurs CPU pour accélérer les workflows d’inférence Deep Learning, vous offrant ainsi un meilleur rendement et un coût d’acquisition plus faible.

Maximisez les performances avec NVIDIA TensorRT et DeepStream SDK

NVIDIA TensorRT est un optimiseur et un moteur d’exécution de réseaux neuronaux qui délivre un rendement élevé et une faible latence dans des domaines comme la reconnaissance vocale, les systèmes de recommandation ou la traduction assistée par ordinateur. TensorRT permet d’exploiter des modèles préalablement entraînés sur 32 bits ou 16 bits afin de les optimiser pour les opérations INT8 avec Tesla T4 ou Tesla P4 ou les opérations FP16 avec Tesla V100. Le kit de développement NVIDIA DeepStream exploite la puissance des GPU à architecture Tesla pour décoder et analyser simultanément des flux vidéo HD.

Serveur d’inférence qui maximise l’utilisation GPU et supporte les principaux frameworks

Le serveur d’inférence NVIDIA Triton, qui offre un rendement extrêmement élevé pour les workflows d’inférence sur Data Center, vous aide à exploiter toute la puissance des GPU. Fourni au sein d’un conteneur prêt à l’emploi, NVIDIA TensorRT est un microservice qui prend en charge les opérations d’inférence via une API compatible avec tous les modèles créés via Caffe2, NVIDIA TensorRT ou TensorFlow et avec tous les frameworks prenant en charge le standard ONNX avec un ou plusieurs GPU.

SPÉCIFICATIONS ET PERFORMANCES

Tesla T4 – L’accélérateur d’inférences le plus avancé au monde Tesla V100 pour Data Centers universels Tesla P4 pour serveurs Scale-out à haute efficacité Tesla P40 pour serveurs d’inférence à haut rendement
Performances en simple précision (FP32) 8,1 TFlops 14 téraflops (PCIe)
15,7 téraflops (SXM2)
5,5 téraflops 12 téraflops
Performances en demi-précision (FP16) 65 TFlops FP16 112 téraflops (PCIe)
125 téraflops (SXM2)
Opérations INT8 à nombres entiers 130 TOPs INT8 22 TOPs* 47 TOPs*
Mémoire GPU 16 Go 16 Go HBM2 8 Go 24 Go
Bande passante mémoire 320 Go/s 900 Go/s 192 Go/s 346 Go/s
Interface système/Configuration Configuration compacte PCI Express Configuration PCI Express Dual-Slot, Full-Height SXM2 / NVLink Configuration compacte PCI Express Configuration compacte PCI Express Dual-Slot, Full-Height
Alimentation 75 W 250 W (PCIe)
300 W (SXM2)
50 W/75 W 250 W
Moteur vidéo à accélération matérielle 1 x moteur de décodage, 2 x moteurs d'encodage 1 x moteur de décodage, 2 x moteurs d'encodage 1 x moteur de décodage, 2 x moteurs d'encodage

*Téra-opérations par seconde avec Boost Clock désactivé

ÉTUDES DE CAS

Recherches visuelles plus rapides et intelligentes

Bing s’appuie sur les technologies GPU de NVIDIA pour accélérer la détection d’objets et fournir des résultats pertinents en temps réel.

Traitement d’images et de vidéos

Maximisez le rendement des workflows pour le traitement d’images et de vidéos avec le SDK NVIDIA DeepStream et les GPU Tesla.

Systèmes de recommandation

Améliorez la précision des recommandations personnalisées grâce aux GPU NVIDIA et à des applications de filtrage neuronal collaboratif exploitant le plein potentiel du Deep Learning.

OPTIMISEZ VOTRE SOLUTION D’INFÉRENCE DEEP LEARNING

Les GPU Tesla V100, T4 et P40 sont disponibles dès maintenant pour les workflows d’inférence Deep Learning.