Cœurs Tensor NVIDIA

Accélération sans précédent pour l'IA agentique.

Les cœurs Tensor permettent des calculs en précision mixte, ce qui permet d’accélérer le rendement tout en préservant la précision et en fournissant une sécurité accrue. La nouvelle génération de cœurs Tensor apporte des gains de performance significatifs à une grande variété de tâches d'IA et de calcul haute performance (HPC). De l'entraînement de modèles d'IA des trillions de paramètres aux performances d'inférence révolutionnaires, les cœurs Tensor NVIDIA accélèrent toutes les charges de travail pour les usines d'IA modernes.

Techniques d’entraînement révolutionnaires

L'entraînement de modèles d'IA générative comportant plusieurs trillions de paramètres avec une précision de 16 bits peut prendre des mois. Les cœurs Tensor NVIDIA intègrent NVFP4, un format révolutionnaire qui offre la vitesse et l'efficacité du format 4 bits avec la précision du 16 bits. Grâce au Transformer Engine, NVFP4 utilise une mise à l'échelle des micro-blocs pour augmenter considérablement le débit et réduire l'empreinte mémoire. Grâce à une prise en charge native des frameworks via les bibliothèques CUDA-X™, cette innovation réduit les délais entre l'entraînement et la convergence pour la nouvelle génération de modèles de pointe.

Inférence révolutionnaire

Atteindre une faible latence à un débit élevé tout en maximisant l'utilisation est essentiel pour un déploiement fiable de l'inférence. La plateforme NVIDIA Rubin intègre un moteur Transformer amélioré qui augmente les performances NVFP4 avec des cœurs Tensor de 5ᵉ génération. Tout en garantissant la précision, elle permet d'atteindre jusqu'à 50 pétaFLOPS (PFLOPS) d'inférence NVFP4. Entièrement compatible avec NVIDIA Blackwell, le Transformer Engine garantit des mises à niveau fluides, ce qui permet une transition sans effort des codes précédemment optimisés vers NVIDIA Rubin.

Les cœurs Tensor ont permis à NVIDIA de se classer à la première place de MLPerf,le premier benchmark pour l’inférence à faire autorité dans toute l’industrie.

Fonctionnalités HPC avancées

Le calcul haute performance (HPC) est un pilier de la science moderne. Pour réaliser de nouvelles découvertes, les scientifiques ont recours à des simulations afin de mieux comprendre les molécules complexes dans le cadre de la recherche pharmaceutique, à la physique pour identifier des sources d'énergie potentielles, et à des données atmosphériques pour mieux prévoir les phénomènes météorologiques extrêmes et s'y préparer. Les cœurs Tensor NVIDIA offrent une gamme complète de précisions, notamment les FP64 et FP32, pour accélérer le calcul scientifique avec la précision la plus élevée requise.

Notre kit de développement pour le HPC regroupe une suite complète de compilateurs, de bibliothèques logicielles et d’outils essentiels pour le développement d’applications HPC sur la plateforme de NVIDIA.

Cœurs Tensor NVIDIA Rubin

Cinquième génération améliorée

La plateforme NVIDIA Rubin intègre des cœurs Tensor de 5ᵉ génération améliorés. Conçus pour accélérer les usines d'IA modernes, ils optimisent la prise en charge de l'arithmétique NVFP4 et FP8 à précision étroite à 4 bits. En intégrant étroitement ces cœurs Tensor aux unités de fonctions spéciales étendues au sein des multiprocesseurs de flux de NVIDIA Rubin, la plateforme accélère considérablement les mécanismes d'attention et les parcours de calcul épars, améliorant ainsi à la fois la densité arithmétique et l'efficacité énergétique sans compromettre la précision du modèle.

Moteur Transformer de 50 PFLOPS

Conçu pour alimenter la prochaine génération de l'IA agentique, le GPU NVIDIA Rubin intègre un moteur Transformer de 50 pétaFLOPS qui exploite les cœurs Tensor de cinquième génération et la précision NVFP4 afin d'optimiser l'efficacité de l'inférence. Cette avancée architecturale s'étend en toute simplicité à 3 600 PFLOPS pour l'inférence NVFP4 dans le système NVIDIA Vera Rubin NVL72, offrant un débit massif essentiel pour les modèles de raisonnement en temps réel.

Émulation

Les architectures NVIDIA Blackwell et Rubin peuvent émuler des opérations matricielles FP32 et FP64 en décomposant les valeurs d'entrée et en tirant parti des cœurs Tensor à haut débit et de faible précision. Cette approche peut considérablement augmenter les performances et l'efficacité énergétique tout en égalant voire dépassant la précision native de l'IEEE754. En utilisant des algorithmes complexes basés sur des logiciels et des opérations à point fixe, l'émulation fournit une alternative contrôlée et hautement efficace aux méthodes d'exécution matérielle traditionnelles de haute précision.

Cœurs Tensor NVIDIA Blackwell

Cinquième génération

L'architecture NVIDIA Blackwell offre une accélération 30 fois supérieure à celle de la génération précédente de NVIDIA Hopper™ pour les modèles de grande envergure tels que GPT-MoE-1.8T. Cette augmentation des performances est rendue possible par la 5ᵉ génération de cœurs Tensor. Les cœurs Tensor Blackwell de NVIDIA intègrent de nouvelles précisions, notamment des formats de micro-mise à l'échelle définis par la communauté, offrant ainsi une meilleure précision et une plus grande facilité de remplacement pour des niveaux de précision plus élevés.

Nouveaux formats de précision

Les modèles d'IA générative devenant de plus en plus volumineux et complexes, il est essentiel d'améliorer leurs performances en matière d'entraînement et d'inférence. Pour répondre à ces besoins de calcul, les cœurs Tensor NVIDIA Blackwell prennent en charge de nouveaux formats et niveaux de précision de quantification, y compris les formats de micro-échelonnage définis par la communauté.

Moteur de transformation de deuxième génération

Le moteur de transformation de deuxième génération utilise la technologie Blackwell Tensor Core personnalisée combinée aux innovations NVIDIA® TensorRT™-LLM et NeMo™ Framework pour accélérer l'inférence et l'entraînement des grands modèles de langage (LLM) et des modèles Mixture of Experts (MoE). Alimenté par le niveau de précision FP4 des cœurs Tensor, le moteur de transformation permet de doubler les performances et l’efficacité énergétique tout en maintenant un niveau de précision élevé avec les modèles MoE de génération actuelle et de nouvelle génération.

Le Transformer Engine permet de démocratiser les LLM actuels avec des performances en temps réel. Les entreprises peuvent désormais optimiser leurs processus commerciaux en déployant des modèles d’IA générative à la pointe de la technologie à moindre coût.

La plateforme pour Data Center de bout en bout la plus puissante au monde pour l’IA et le HPC

Les cœurs Tensor sont des éléments essentiels de la solution complète de Data Center de NVIDIA qui intègre du matériel, des solutions de mise en réseau, des logiciels, des bibliothèques et des applications d'IA optimisés du catalogue NVIDIA NGC™. Dédiée à l’IA et au HPC, cette plateforme de bout en bout est la plus puissante du marché. Les chercheurs du monde entier peuvent ainsi aboutir plus rapidement à des résultats concrets et déployer des solutions de production hautement évolutives.

NVIDIA Rubin NVIDIA Blackwell
Niveaux de précision Tensor pris en charge NVFP4, FP64, TF32, BF16, FP16, FP8/FP6, INT8, NVFP4, FP64, TF32, BF16, FP16, FP8/FP6, INT8,
Niveaux de précision CUDA® pris en charge FP64, FP32, INT32, FP16, BF16 FP64, FP32, FP16, BF16

* Spécifications préliminaires susceptibles d’être modifiées.

En savoir plus sur la plateforme NVIDIA Vera Rubin.