Cœurs NVIDIA Tensor

Accélération sans précédent des workflows d’IA et de HPC

Les cœurs Tensor sont une nouvelle technologie avancée de NVIDIA autorisant des calculs en précision mixte, ce qui permet d’accélérer le rendement tout en préservant la précision grâce à une adaptation dynamique du calcul informatique. La nouvelle génération des cœurs Tensor apporte des gains de performance significatifs à une grande variété de tâches d’intelligence artificielle (IA) et de calcul haute performance (HPC). Avec des procédures d’entraînement jusqu’à six fois plus rapides pour les réseaux de transformateurs, mais aussi des performances jusqu’à trois fois plus élevées dans toutes les applications, les cœurs NVIDIA Tensor vous fournissent des capacités sans précédent pour tous les types de charges de travail.

Techniques d’entraînement révolutionnaires

Techniques d’entraînement révolutionnaires

Les modèles d’IA gagnent en complexité alors que surgissent de nouveaux défis tels que la conception d’applications d’IA conversationnelle à hautes performances. L’entraînement de ces modèles hautement évolués avec des calculs FP32 peut prendre plusieurs jours, voire plusieurs semaines. Les cœurs NVIDIA Tensor offrent des performances significativement plus élevées pour les calculs FP8 (virgule flottante à 8 bits), TF32 (Tensor Float 32) et FP16 à précision ajustée. La prise en charge directe de ces modèles dans des frameworks natifs via les bibliothèques logicielles CUDA-X garantit une implémentation automatique, ce qui permet de réduire les délais d’entraînement tout en maintenant des résultats conformes à la précision préservée.

Les cœurs Tensor ont permis à NVIDIA de se classer à la première place de MLPerf, le premier benchmark pour l’entraînement à faire autorité dans toute l’industrie.

Performances d’inférence de pointe

Performances d’inférence de pointe

Un bon accélérateur d’inférences IA doit permettre d’améliorer les performances de calcul, tout en s’avérant suffisamment polyvalent pour accélérer des réseaux de neurones variés et optimiser la programmabilité afin de permettre aux développeurs de créer de nouveaux modèles. Maintenir une faible latence et un rendement élevé tout en optimisant le niveau d’utilisation est la plus importante exigence pour déployer des systèmes d’inférence fiables. Les cœurs NVIDIA Tensor fonctionnent à différents niveaux de précision (TF32, bfloat16, FP16, FP8 and INT8) de manière à vous offrir une polyvalence et des performances sans précédent.  

Les cœurs Tensor ont permis à NVIDIA de se classer à la première place de MLPerf, le premier benchmark pour l’inférence à faire autorité dans toute l’industrie.

Fonctionnalités HPC avancées

Fonctionnalités HPC avancées

Le calcul haute performance (HPC) est un pilier de la science moderne. Pour réaliser de nouvelles découvertes scientifiques, les chercheurs ont aujourd’hui recours à des simulations avancées afin d'étudier des systèmes moléculaires complexes à des fins de recherche pharmaceutique, d'utiliser de nouveaux modèles physiques pour identifier de nouvelles sources d'énergie ou d'analyser de grands volumes de données atmosphériques pour mieux anticiper les phénomènes climatiques extrêmes. Les cœurs NVIDIA Tensor mobilisent toute une gamme d’opérations (TF32, FP16, INT8 et INT4) pour accélérer la recherche scientifique avec le plus haut niveau de précision.

Notre kit de développement pour le HPC regroupe une suite complète de compilateurs, de bibliothèques logicielles et d’outils essentiels pour le développement d’applications HPC sur la plateforme de NVIDIA.

Cœurs NVIDIA H100 Tensor

Quatrième génération

Depuis la mise en œuvre de la technologie Tensor Core, les GPU de NVIDIA ont multiplié par 60 leur niveau de performances maximales, ce qui a favorisé la démocratisation du calcul sur GPU pour l’IA et le HPC. L’architecture NVIDIA Hopper™ optimise les cœurs Tensor de quatrième génération grâce à un moteur de transformation dédié qui s’appuie sur de nouveaux calculs en précision FP8 (virgule flottante à 8 bits) pour fournir des performances 6 fois plus élevées qu’avec les opérations FP16 dans le cadre de l’entraînement de modèles complexes dotés de plusieurs billions de paramètres. Mais ce n’est pas tout : forts de performances 3 fois plus élevées pour les calculs TF32, FP64, FP16 et INT8, les cœurs Hopper Tensor vous offrent des gains de performance significatifs avec toutes les charges de travail.

  • FP8
  • TF32
  • FP64
  • FP16
  • INT8
Cœurs Tensor FP8

FP8

Les délais d’entraînement des réseaux d’IA basés sur des transformateurs peuvent s’étaler sur plusieurs mois en raison de calculs mathématiques complexes. Les nouveaux calculs en précision FP8 de l’architecture Hopper offrent jusqu’à 6 fois plus de performances que les calculs FP16 de l’architecture Ampere. Les calculs FP8 reposent sur le moteur de transformation de l’architecture Hopper, spécialement conçu pour accélérer l’entraînement des modèles de transformateurs. Les cœurs Hopper Tensor ont la capacité d’appliquer des formats de précision mixtes FP8 et FP16 afin d’accélérer de manière significative les calculs d’IA pour l’entraînement des transformateurs tout en préservant la précision. Les calculs FP8 permettent par ailleurs d’accélérer de manière considérable l’inférence de modèles de langage complexes avec des performances jusqu’à 30 fois plus élevées par rapport à l’architecture Ampere.

Tensor Float 32

TF32

Alors que les jeux de données et les réseaux dédiés à l’IA continuent de croître de manière exponentielle, leur besoins en matière de puissance de calcul a connu une croissance similaire. Les calculs mathématiques à précision réduite ont entraîné d’importants gains de performance, mais ils requièrent le plus souvent des changements significatifs du code-source. Les cœurs H100 prennent en charge le nouveau niveau de précision TF32, qui fonctionne de la même manière que les opérations FP32 tout en offrant une accélération des tâches d’IA jusqu’à 3 fois élevée qu’avec les cœurs NVIDIA Ampere™ Tensor ; sans nécessiter le moindre changement de code.

Cœurs Tensor FP64

FP64

H100 continue de fournir toute la puissance des cœurs Tensor pour les workflows HPC avec un niveau de performance sans précédent. Les performances FP64 du GPU H100 s’avèrent 3 fois plus rapides qu’avec les produits de génération précédente, ce qui accélère encore davantage une grande variété d’applications HPC nécessitant des calculs en double précision.

Cœurs Tensor FP16

FP16

Les cœurs H100 Tensor améliorent le traitement des calculs FP16 pour les applications de Deep Learning, offrant ainsi des performances d’IA jusqu’à trois fois plus rapides que les cœurs Tensor de l’architecture NVIDIA Ampere. Cela permet d’accélérer le rendement et de réduire drastiquement les délais de convergence.

INT8

INT8

Introduits pour la première fois avec l’architecture NVIDIA Turing™, les cœurs INT8 Tensor accélèrent le débit des inférences et délivrent une hausse considérable de l’efficacité des calculs. Les cœurs INT8 de l’architecture NVIDIA Hopper offrent un rendement 3 fois plus important que les cœurs Tensor pour les déploiements de production. Cela démontre à quel point cette nouvelle plateforme de calcul s’avère polyvalente pour traiter des charges de travail en temps réel et à haute densité, que ce soit sur des Data Centers traditionnels ou à l’Edge.  

Cœurs Tensor de l’architecture NVIDIA Ampere

Cœurs Tensor de l’architecture NVIDIA Ampere

Troisième génération

Les cœurs Tensor de l’architecture NVIDIA Ampere optimisent les performances de calcul en ouvrant la voie à de nouveaux niveaux de précision (TF32 et FP64). Cette innovation technologique accélère et simplifie l’adoption des applications d’IA et apporte toute la puissance des cœurs NVIDIA Tensor aux workflows de calcul haute performance. Et grâce à une prise en charge avancée des opérations bfloat16, INT8 et INT4, ces cœurs Tensor de troisième génération constituent des accélérateurs incroyablement polyvalents pour l’entraînement et l’inférence des modèles d’IA.

Cœurs NVIDIA Turing Tensor

Seconde génération

La technologie de cœurs NVIDIA Turing Tensor propose des capacités de calcul multi-précision pour des inférences d’IA à haute efficacité. Les cœurs Turing Tensor renforcent la précision de manière significative pour l’entraînement et l’inférence des modèles d’IA et fournissent des performances FP32, FP16, INT8 et INT4 sans précédent par rapport aux GPU NVIDIA Pascal de génération précédente.

Cœurs Turing Tensor
Cœurs Volta Tensor

Cœurs NVIDIA Volta Tensor

Première génération

Spécifiquement conçus pour les workflows de Deep Learning, les cœurs Tensor de l’architecture NVIDIA Volta fournissent une puissance exceptionnelle pour les opérations de multiplication matricielle FP16 et FP32 en précision mixte (jusqu’à 12 fois plus de performances TFlops dans les applications d’entraînement et jusqu’à 6 fois plus dans les applications d’inférence par rapport aux GPU NVIDIA Pascal). Cette capacité-clé permet de tripler les performances de calcul par rapport aux solutions Pascal.

La plateforme pour Data Center de bout en bout la plus puissante au monde pour l’IA et le HPC

Les cœurs Tensor sont des composants essentiels de la pile de solutions NVIDIA pour Data Center, regroupant un ensemble complet de solutions matérielles et logicielles, de systèmes de mise en réseau, de bibliothèques, de modèles d’IA et d’applications optimisées par NVIDIA NGC. Dédiée à l’IA et au HPC, cette plateforme de bout en bout est la plus puissante du marché. Les chercheurs du monde entier peuvent ainsi aboutir plus rapidement à des résultats concrets et déployer des solutions de production hautement évolutives.

Hopper Ampere Turing Volta
Niveaux de précision Tensor pris en charge FP64, TF32, bfloat16, FP16, FP8, INT8 FP64, TF32, bfloat16, FP16, INT8, INT4, INT1 FP16, INT8, INT4, INT1 FP16
Niveaux de précision CUDA® pris en charge FP64, FP32, FP16, bfloat16, INT8 FP64, FP32, FP16, bfloat16, INT8 FP64, FP32, FP16, INT8 FP64, FP32, FP16, INT8

 Spécifications préliminaires susceptibles d’être modifiées.

Plongez au cœur de l’architecture NVIDIA Hopper