Cœurs NVIDIA Tensor

Accélération sans précédent des workflows d’IA et de HPC

Les cœurs Tensor sont une nouvelle technologie avancée de NVIDIA autorisant des calculs en précision mixte, ce qui permet d’accélérer le rendement tout en préservant la précision grâce à une adaptation dynamique du calcul informatique. La nouvelle génération des cœurs Tensor apporte des gains de performance significatifs à une grande variété de charges de travail. Avec des workflows d’entraînement IA jusqu’à 10 fois plus rapides grâce aux calculs TF32 (un nouveau niveau de précision révolutionnaire) et des applications HPC qui s’exécutent 2,5 fois plus vite via les calculs FP64, les cœurs NVIDIA Tensor vous fournissent des capacités sans précédent pour tous les types de charges de travail.

 

Procédures d’entraînement révolutionnaires

Procédures d’entraînement révolutionnaires

Les modèles d’IA gagnent en complexité alors que surgissent de nouveaux défis tels que la conception d’applications d’IA conversationnelle plus précises ou le développement de systèmes de recommandation plus évolués. Les modèles utilisés pour l’IA conversationnelle comme Megatron sont des centaines de fois plus complexes que les modèles de classification d’images comme ResNet-50. L’entraînement de ces modèles hautement évolués avec des calculs FP32 peut prendre plusieurs jours, voire plusieurs semaines. Les cœurs Tensor des GPU NVIDIA offrent des performances significativement plus élevées pour les calculs TF32 et FP16 à précision ajustée. La prise en charge directe de ces modèles dans des frameworks natifs via les bibliothèques logicielles NVIDIA CUDA-X libraries, garantit une implémentation automatique, ce qui permet de réduire les délais d’entraînement tout en maintenant des résultats conformes à la précision préservée.

Les cœurs Tensor ont permis à NVIDIA de se classer à la première place de MLPerf 0.6, le premier benchmark d’IA pour l’entraînement à faire autorité dans toute l’industrie.

Performances d’inférence de pointe

Performances d’inférence de pointe

A great AI inference accelerator has to not only deliver great performance but also the versatility to accelerate diverse neural networks, along with the programmability to enable developers to build new ones. Low latency at high throughput while maximizing utilization are the most important performance requirements of deploying inference reliably. NVIDIA Tensor Cores offer a full range of precisions—TF32, bfloat16,  FP16, INT8, and INT4—to provide unmatched versatility and performance. 

Tensor Cores enabled NVIDIA to win MLPerf Inference 0.5, the first AI industry-wide benchmark for inference.

Fonctionnalités HPC avancées

Fonctionnalités HPC avancées

Le calcul haute performance (HPC) est un pilier de la science moderne. Pour réaliser de nouvelles découvertes scientifiques, les chercheurs ont aujourd’hui recours à des simulations avancées afin d'étudier des systèmes moléculaires complexes à des fins de recherche pharmaceutique, d'utiliser de nouveaux modèles physiques pour identifier de nouvelles sources d'énergie ou d'analyser de grands volumes de données atmosphériques pour mieux anticiper les phénomènes climatiques extrêmes. Les cœurs NVIDIA Tensor mobilisent toute une gamme d’opérations (y compris FP64) pour accélérer la recherche scientifique avec le plus haut niveau de précision

Le kit de développement NVIDIA HPC regroupe une suite complète de compilateurs, de bibliothèques logicielles et d’outils essentiels pour le développement d’applications HPC sur la plateforme NVIDIA.

Tensor A100

Cœurs de troisième génération

La technologie de cœurs NVIDIA Tensor a offert des gains de performance considérables pour l’intelligence artificielle, ce qui a permis de réduire les délais d’entraînement de plusieurs semaines à quelques heures tout en offrant une accélération significative des workflows d’inférence. L’architecture NVIDIA Ampere répond aux besoins des chercheurs en optimisant les performances de calcul à tous les niveaux de précision (TF32, FP64, FP16, INT8 et INT4). Cette innovation technologique accélère et simplifie l’adoption des applications d’IA et apporte toute la puissance des cœurs NVIDIA Tensor aux workflows de calcul haute performance.

  • TF32
  • FP64
  • FP16
  • INT8
Performances de niveau TF32

Performances de niveau TF32

Alors que les jeux de données et les réseaux dédiés à l’IA continuent de croître de manière exponentielle, leur besoins en matière de puissance de calcul a connu une croissance similaire. Les calculs mathématiques à précision réduite ont entraîné d’importants gains de performance, mais ils requièrent le plus souvent des changements significatifs du code-source. Les cœurs A100 innovent en mettant en œuvre le nouveau niveau de précision, TF32 (Tensor Float 32), qui fonctionne de la même manière que les opérations FP32 tout en offrant une accélération jusqu’à 20 fois élevée pour les applications d’IA - sans nécessiter le moindre changement de code.

FP64 Tensor Cores

Cœurs Tensor FP64

A100 apporte toute la puissance des cœurs Tensor aux workflows HPC, fournissant ainsi l’avancée technologique la plus importante depuis l’introduction du calcul sur GPU en double précision. En permettant d’effectuer des opérations matricielles à précision FP64, c’est toute une gamme d’applications HPC applications nécessitant des calculs en double précision qui peut aujourd’hui bénéficier d’une accélération jusqu’à 2,5 fois plus importante en matière de performance et d’efficacité par rapport aux GPU de génération antérieure.

Cœurs Tensor FP16

Cœurs Tensor FP16

Les cœurs A100 Tensor améliorent le traitement des calculs FP16 pour les applications de Deep Learning, offrant ainsi le double de performance par rapport à une même opération traitée sur l’architecture NVIDIA Volta pour l’IA. Cela permet d’accélérer le rendement et de réduire drastiquement les délais de convergence.

Précision INT8

Précision INT8

ntroduits pour la première fois avec l’architecture NVIDIA Turing, les cœurs Tensor INT8 accélèrent le débit des inférences et délivrent des hausses considérables de l’efficacité de calcul. Les cœurs INT8 de l’architecture NVIDIA Ampere offrent un rendement 10 fois plus important que les cœurs Volta pour les déploiements de production. Cela démontre à quel point cette nouvelle plateforme de calcul s’avère polyvalente pour traiter des charges de travail en temps réel et à haute densité, que ce soit sur Data Center ou sur l’Edge

Cœurs Turing Tensor

Seconde génération

La technologie de cœurs NVIDIA Turing™ Tensor propose des capacités de calcul multi-précision pour des inférences d’IA à haute efficacité. Les cœurs Turing Tensor fournissent un excellent rendement énergétique avec les workflows d’inférence et d’entraînement pour le Deep Learning. Leurs performances de calcul multi-précision FP32, FP16, INT8 et INT4 sont tout simplement sans précédent par rapport aux GPU NVIDIA Pascal™ de génération précédente.

Cœurs Turing Tensor
Cœurs Volta Tensor

Cœurs Volta Tensor

Première génération

Spécifiquement conçus pour les workflows de Deep Learning, les cœurs Tensor de l’architecture NVIDIA Volta™ fournissent une puissance exceptionnelle pour les opérations de multiplication matricielle FP16 et FP32 en précision mixte (jusqu’à 12 fois plus de performances TFlops dans les applications d’entraînement et jusqu’à 6 fois plus dans les applications d’inférence par rapport aux GPU NVIDIA Pascal). Cette capacité-clé permet de tripler les performances de calcul par rapport aux solutions Pascal.

La plateforme de bout en bout sur Data Center la plus puissante au monde pour les applications IA et HPC

Les cœurs Tensor sont des composants essentiels de la pile de solutions NVIDIA pour NVIDIA data center, regroupant un ensemble complet de solutions matérielles et logicielles, de solutions de mise en réseau, de bibliothèques, de modèles d’IA et d’applications optimisées par NGC. Dédiée à l’IA et au HPC, cette plateforme de bout en bout est la plus puissante du marché. Les chercheurs du monde entier peuvent ainsi aboutir plus rapidement à des résultats concrets et déployer des solutions de production hautement évolutives.

NVIDIA A100 NVIDIA Turing NVIDIA Volta
Niveaux de précision Tensor pris en charge FP64, TF32, bfloat16, FP16, INT8, INT4, INT1 FP16, INT8, INT4, INT1 FP16
Niveaux de précision CUDA® pris en charge FP64, FP32, FP16, bfloat16, INT8 FP64, FP32, FP16, INT8 FP64, FP32, FP16, INT8

Découvrir les cœurs NVIDIA Tensor

Suivez ce webinaire pour découvrir comment obtenir des performances optimales avec les GPU NVIDIA Tensor Core.