Les cœurs Tensor permettent des calculs en précision mixte, ce qui permet d’accélérer le rendement tout en préservant la précision et en fournissant une sécurité accrue. La nouvelle génération de cœurs Tensor apporte des gains de performance significatifs à une grande variété de tâches d'IA et de calcul haute performance (HPC). De l'entraînement de modèles d'IA des trillions de paramètres aux performances d'inférence révolutionnaires, les cœurs Tensor NVIDIA accélèrent toutes les charges de travail pour les usines d'IA modernes.
La plateforme NVIDIA Rubin intègre des cœurs Tensor de 5ᵉ génération améliorés. Conçus pour accélérer les usines d'IA modernes, ils optimisent la prise en charge de l'arithmétique NVFP4 et FP8 à précision étroite à 4 bits. En intégrant étroitement ces cœurs Tensor aux unités de fonctions spéciales étendues au sein des multiprocesseurs de flux de NVIDIA Rubin, la plateforme accélère considérablement les mécanismes d'attention et les parcours de calcul épars, améliorant ainsi à la fois la densité arithmétique et l'efficacité énergétique sans compromettre la précision du modèle.
Conçu pour alimenter la prochaine génération de l'IA agentique, le GPU NVIDIA Rubin intègre un moteur Transformer de 50 pétaFLOPS qui exploite les cœurs Tensor de cinquième génération et la précision NVFP4 afin d'optimiser l'efficacité de l'inférence. Cette avancée architecturale s'étend en toute simplicité à 3 600 PFLOPS pour l'inférence NVFP4 dans le système NVIDIA Vera Rubin NVL72, offrant un débit massif essentiel pour les modèles de raisonnement en temps réel.
Les architectures NVIDIA Blackwell et Rubin peuvent émuler des opérations matricielles FP32 et FP64 en décomposant les valeurs d'entrée et en tirant parti des cœurs Tensor à haut débit et de faible précision. Cette approche peut considérablement augmenter les performances et l'efficacité énergétique tout en égalant voire dépassant la précision native de l'IEEE754. En utilisant des algorithmes complexes basés sur des logiciels et des opérations à point fixe, l'émulation fournit une alternative contrôlée et hautement efficace aux méthodes d'exécution matérielle traditionnelles de haute précision.
L'architecture NVIDIA Blackwell offre une accélération 30 fois supérieure à celle de la génération précédente de NVIDIA Hopper™ pour les modèles de grande envergure tels que GPT-MoE-1.8T. Cette augmentation des performances est rendue possible par la 5ᵉ génération de cœurs Tensor. Les cœurs Tensor Blackwell de NVIDIA intègrent de nouvelles précisions, notamment des formats de micro-mise à l'échelle définis par la communauté, offrant ainsi une meilleure précision et une plus grande facilité de remplacement pour des niveaux de précision plus élevés.
Les modèles d'IA générative devenant de plus en plus volumineux et complexes, il est essentiel d'améliorer leurs performances en matière d'entraînement et d'inférence. Pour répondre à ces besoins de calcul, les cœurs Tensor NVIDIA Blackwell prennent en charge de nouveaux formats et niveaux de précision de quantification, y compris les formats de micro-échelonnage définis par la communauté.
Le moteur de transformation de deuxième génération utilise la technologie Blackwell Tensor Core personnalisée combinée aux innovations NVIDIA® TensorRT™-LLM et NeMo™ Framework pour accélérer l'inférence et l'entraînement des grands modèles de langage (LLM) et des modèles Mixture of Experts (MoE). Alimenté par le niveau de précision FP4 des cœurs Tensor, le moteur de transformation permet de doubler les performances et l’efficacité énergétique tout en maintenant un niveau de précision élevé avec les modèles MoE de génération actuelle et de nouvelle génération.
Le Transformer Engine permet de démocratiser les LLM actuels avec des performances en temps réel. Les entreprises peuvent désormais optimiser leurs processus commerciaux en déployant des modèles d’IA générative à la pointe de la technologie à moindre coût.
Les cœurs Tensor sont des éléments essentiels de la solution complète de Data Center de NVIDIA qui intègre du matériel, des solutions de mise en réseau, des logiciels, des bibliothèques et des applications d'IA optimisés du catalogue NVIDIA NGC™. Dédiée à l’IA et au HPC, cette plateforme de bout en bout est la plus puissante du marché. Les chercheurs du monde entier peuvent ainsi aboutir plus rapidement à des résultats concrets et déployer des solutions de production hautement évolutives.
| NVIDIA Rubin | NVIDIA Blackwell | |
|---|---|---|
| Niveaux de précision Tensor pris en charge | NVFP4, FP64, TF32, BF16, FP16, FP8/FP6, INT8, | NVFP4, FP64, TF32, BF16, FP16, FP8/FP6, INT8, |
| Niveaux de précision CUDA® pris en charge | FP64, FP32, INT32, FP16, BF16 | FP64, FP32, FP16, BF16 |
* Spécifications préliminaires susceptibles d’être modifiées.
En savoir plus sur la plateforme NVIDIA Vera Rubin.