UNE EXPÉRIENCE UTILISATEUR SANS PRÉCÉDENT

Améliorez le rendement et accélérez la réactivité des worflows d'inférence basés sur le Deep Learning.

Les services à base IA doivent prendre en charge des volumes exponentiels de données tout en fournissant des résultats le plus rapidement possible. Répondez à tous les défis du calcul haute performance avec NVIDIA® Tesla®, la plateforme d’inférence pour Data Center la plus rapide et la plus efficace au monde. Les GPU Tesla peuvent prendre en charge tout type de workflow pour vous aider à déployer la solution d'inférence optimale. Ils vous fournissent un rendement, une polyvalence et une efficacité énergétique sans précédent pour que vous puissiez concevoir et proposer à vos utilisateurs de toutes nouvelles expériences IA. NVIDIA TensorRT - qui exploite le plein potentiel des GPU Tesla dans une grande variété de champs d’application comme le streaming vidéo, la reconnaissance vocale et les systèmes de recommandation - vous fournit des bases solides pour l’exploitation du SDK NVIDIA DeepStream.

INFERENCE SUCCESS STORIES

iFLYTEK

iFLYTEK’s Voice Cloud Platform uses NVIDIA Tesla P4 and P40 GPUs for training and inference, to increase speech recognition accuracy.

VALOSSA

NVIDIA Inception Program startup Valossa is using NVIDIA GPUs to accelerate deep learning and divine viewer behavior from video data.

JD.COM

JD uses NVIDIA AI inference platform to achieve 40X increase in video detection efficiency.

NVIDIA DATA CENTER INFERENCE PLATFORMS

PLATEFORMES D’INFÉRENCE NVIDIA POUR DATA CENTER

TESLA V100
Pour Data Centers universels

Avec plus de 125 téraflops de performances d’inférence par GPU, un seul serveur équipé de huit accélérateurs Tesla V100 peut fournir une puissance pouvant atteindre 1 pétaflop pour le calcul haute performance.

TESLA P4
Pour serveurs Scale-out à haute efficacité

Le Tesla P4 accélère tout type de serveur Scale-Out en fournissant 60 fois plus d'efficacité énergétique qu'un serveur équipé uniquement de CPU.

TESLA P40
Pour serveurs d’inférence à haut rendement

L’accélérateur Tesla P40 fournit des performances d’inférence exceptionnelles avec des opérations INT8 à haute précision et 24 Go de mémoire dédiée pour un rendement maximal.

LOGICIELS NVIDIA POUR LE CALCUL SUR DATA CENTER

NVIDIA TensorRT

NVIDIA TensorRT™ est un moteur d’inférence de réseaux neuronaux à hautes performances qui, par rapport aux configurations CPU, peut accélérer jusqu’à 100 fois des applications spécialisées dans des domaines comme la reconnaissance vocale, les systèmes de recommandation ou la traduction assistée par ordinateur. TensorRT permet aux développeurs d’optimiser leurs modèles de réseaux neuronaux avant de les calibrer pour bénéficier d’un maximum de précision et de les déployer dans des environnements de production sur des Data Centers d’entreprise ou Hyperscale.

Kit de développement DeepStream

NVIDIA DeepStream pour Tesla est un kit de développement logiciel dédié à la conception d’applications évolutives d’analyse vidéo intelligente (IVA) basées sur le Deep Learning pour les villes connectées et les Data Centers Hyperscale. DeepStream exploite la plateforme NVIDIA TensorRT pour l’inférence, le kit Video Codec pour le transcodage et le prétraitement vidéo, et des API de curation des données tirant profit de la puissance des GPU Tesla. Grâce aux GPU Tesla P4, vous pouvez par exemple décoder et analyser simultanément jusqu’à 30 flux vidéo HD en temps réel.

Kubernetes sur les GPU NVIDIA

Kubernetes sur les GPU NVIDIA permet aux entreprises de faire évoluer sans interruption leurs workflows d’entraînement et d’inférence sur des clusters multi-GPU dans le Cloud. Kubernetes vous aide à déployer instantanément des applications Deep Learning et HPC accélérées par GPU sur des clusters multi-GPU exploités dans le Cloud.

CARACTÉRISTIQUES ET AVANTAGES

Rendement 50 fois plus élevé pour gérer des volumes de données exponentiels

Les GPU Tesla V100 à architecture Volta améliorent le rendement des workflows Deep Learning de manière significative et permettent de collecter des ressources exploitables à partir de l’avalanche de données que nous générons quotidiennement. Un serveur équipé d’un GPU Tesla V100 peut remplacer jusqu’à 50 serveurs CPU pour accélérer les workflows d’inférence Deep Learning, vous offrant ainsi un meilleur rendement et un coût d’acquisition plus faible.

Efficacité exceptionnelle pour serveurs Scale-Out à faible consommation

La configuration compacte et la consommation réduite (50 W/75 W) du Tesla P4 permet d’accélérer les serveurs Scale-Out à densité optimisée. Il fournit 52 fois plus d'efficacité énergétique que les CPU pour les workflows d'inférence. Les utilisateurs de systèmes Hyperscale peuvent ainsi évoluer au sein de leur infrastructure existante et suivre la croissance exponentielle de la demande pour les applications basées sur l'IA.

Moteur de décodage dédié pour les nouveaux services vidéo basés sur l'intelligence artificielle

Les GPU Tesla P4 peuvent analyser jusqu'à 39 flux vidéo HD en temps réel grâce à leur moteur de décodage dédié à accélération matérielle, qui fonctionne en parallèle des opérations d’inférence traitées par les cœurs NVIDIA CUDA® En intégrant le Deep Learning au pipeline vidéo, vous pouvez offrir à vos utilisateurs de nouveaux services innovants et intelligents qui facilitent les recherches vidéo et donnent accès à de nouvelles fonctionnalités basées sur l’intelligence artificielle.

Déploiement plus rapide avec NVIDIA TensorRT et DeepStream SDK

Télécharger dossier technique sur l’inférence - NVIDIA TensorRT est un moteur d'inférence de réseaux neuronaux à hautes performances pour le déploiement d'applications Deep Learning. TensorRT permet d’exploiter des réseaux de neurones profonds préalablement entraînés sur 32 bits ou 16 bits afin de les optimiser pour les opérations INT8 avec Tesla P4 ou les opérations FP16 avec Tesla V100. Le kit de développement NVIDIA DeepStream SDK exploite la puissance des GPU à architecture Tesla pour décoder et analyser simultanément des flux vidéo HD.

SPÉCIFICATIONS ET PERFORMANCES

Tesla V100 pour Data Centers universels Tesla P4 pour serveurs Scale-out à haute efficacité Tesla P40 pour serveurs d’inférence à haut rendement
Performances en simple précision (FP32) 14 téraflops (PCIe)
15,7 téraflops (SXM2)
5,5 téraflops 12 téraflops
Performances en demi-précision (FP16) 112 téraflops (PCIe)
125 téraflops (SXM2)
Opérations INT8 à nombres entiers 22 TOPs* 47 TOPs*
Mémoire GPU 16 Go HBM2 8 Go 24 Go
Bande passante mémoire 900 Go/s 192 Go/s 346 Go/s
Interface système/Configuration Configuration PCI Express Dual-Slot, Full-Height SXM2 / NVLink Configuration compacte PCI Express Configuration compacte PCI Express Dual-Slot, Full-Height
Alimentation 250 W (PCIe)
300 W (SXM2)
50 W/75 W 250 W
Moteur vidéo à accélération matérielle 1 x moteur de décodage, 2 x moteurs d'encodage 1 x moteur de décodage, 2 x moteurs d'encodage

*Téra-opérations par seconde avec Boost Clock désactivé

DERNIÈRES ÉTUDES DE CAS SUR L’INFÉRENCE

iFLYTEK

La plateforme Voice Cloud d’iFLYTEK exploite des GPU NVIDIA Tesla P4 et NVIDIA Tesla P40 pour accélérer ses procédures d’entraînement et d’inférence et améliorer l’efficacité de ses algorithmes de reconnaissance vocale.

VALOSSA

La startup Valossa du programme Inception utilise des GPU NVIDIA pour accélérer son workflow de Deep Learning et anticiper le comportement des utilisateurs à partir de statistiques vidéo.

JD.COM

JD exploite la plateforme d’inférence IA de NVIDIA pour améliorer jusqu’à 40 fois l’efficacité des workflows de détection vidéo.

OPTIMISEZ VOTRE SOLUTION D’INFÉRENCE DEEP LEARNING

Les GPU Tesla V100, P4 et P40 sont disponibles dès maintenant pour les workflows d’inférence Deep Learning.