NVIDIA Blackwell Architecture

Le moteur de la nouvelle révolution industrielle, désormais en pleine production.

Aperçu
Avancées technologiques
GB200 NVL72
Dossier technique

Aperçu
Avancées technologiques
GB200 NVL72
Dossier technique

Repoussez les limites du calcul accéléré et de l'IA générative

Découvrez les innovations révolutionnaires que la nouvelle architecture NVIDIA Blackwell apporte à l’IA générative et au calcul accéléré. En s’appuyant sur plusieurs générations de technologies NVIDIA, Blackwell ouvre le nouveau chapitre de l’IA générative avec des performances, une efficacité énergétique et une évolutivité sans précédent.

Présentation des avancées technologiques

Nouvelle gamme de superpuces pour l'IA

Les GPU à architecture Blackwell embarquent 208 milliards de transistors et font appel à un processus de fabrication TSMC 4NP sur mesure. Tous les produits Blackwell intègrent des unités limitées à deux réticules et interconnectées au sein d'un GPU unifié via une interface Chip-to-Chip à 10 téraoctets par seconde (To/s).

Moteur de transformation de seconde génération

Le moteur de transformation de seconde génération fait appel à une version personnalisée de la technologie Blackwell Tensor Core combinée aux innovations de la bibliothèque logicielle NVIDIA® TensorRT™-LLM et du framework NeMo™ pour accélérer l'inférence et l’entraînement avec les grands modèles de langage (LLM) et les modèles MoE (Mixture of Experts).

Pour accélérer l'exécution des procédures d'inférence avec les modèles MoE, les cœurs Tensor de l'architecture Blackwell prennent en charge de nouveaux niveaux de précision, notamment avec les formats MX (microscaling) définis par la communauté, offrant ainsi une exactitude et une facilité de remplacement accrues pour garantir une précision encore plus élevée. Le moteur de transformation de l'architecture Blackwell utilise des techniques de mise à l’échelle à granularité fine par micro-tenseurs, de manière à optimiser les performances et la précision des modèles d'IA grâce à une compatibilité avec les calculs FP4 (virgule flottante à 4bits). Cette avancée technologique permet de doubler les performances et la taille des modèles de nouvelle génération tout en maintenant le plus haut niveau de précision.

IA sécurisée

Blackwell prend en charge la technologie NVIDIA Confidential Computing, qui protège les données sensibles et les modèles d’IA contre tout accès non autorisé grâce à un système avancé de sécurité matérielle. Première architecture de GPU compatible TEE-I/O de toute l’industrie, Blackwell constitue la solution de calcul confidentiel la plus performante du secteur avec des hôtes compatibles TEE-I/O et une protection en ligne des tâches de calcul via NVIDIA® NVLink®. L'intégration de NVIDIA Confidential Computing à Blackwell permet à cette architecture novatrice de fournir un rendement virtuellement identique à celui des modes non cryptés. Les entreprises peuvent désormais sécuriser les modèles les plus complexes en adoptant une approche à hautes performances, mais aussi protéger leurs propriétés intellectuelles (IP) et renforcer la confidentialité des procédures d’entraînement, d’inférence et d’apprentissage fédéré pour les applications d'IA.

En savoir plus sur NVIDIA Confidential Computing

NVLink et commutateur NVLink

Pour exploiter le plein potentiel du calcul Exascale et de nouveaux modèles d’IA pouvant inclure plusieurs billions de paramètres, il convient de mettre en œuvre des communications fluides et rapides entre chaque GPU au sein d’un cluster de serveurs. La technologie NVIDIA® NVLink® de 5e génération repose sur un modèle évolutif qui permet d'interconnecter jusqu'à 576 GPU pour accélérer les performances des modèles d’IA incluant des billions de paramètres (voire beaucoup plus).

La puce de commutation NVIDIA NVLink, qui fournit une bande passante de 130 To/s au sein d'un domaine NVLink à 72 GPU (NVL72), apporte une efficacité de bande passante 4 fois plus importante grâce à la prise en charge du protocole SHARP™ (NVIDIA Scalable Hierarchical Aggregation and Reduction Protocol) avec le format FP8. La puce de commutation NVIDIA NVLink peut prendre en charge des clusters allant au-delà d’un seul serveur, tout en maintenant un impressionnant débit d’interconnexion s'élevant à 1,8 To/s. Les clusters multiserveurs avec NVLink permettent de mettre à niveau les communications GPU en les équilibrant avec l'augmentation de la puissance de calcul. Chaque domaine NVL72 peut ainsi fournir un rendement 9 fois plus élevé qu’avec un seul système à huit GPU.

En savoir plus sur NVIDIA NVLink et le commutateur NVLink

Moteur de décompression

Les workflows d’analyse de données et de gestion des bases de données s’appuient traditionnellement sur le traitement CPU pour les opérations de calcul. La science des données accélérée par GPU peut améliorer de manière significative les performances des workflows d’analyse de bout en bout, optimisant ainsi la création de valeur ajoutée tout en réduisant les coûts d’exploitation. Les bases de données qui s'appuient sur des frameworks comme Apache Spark jouent un rôle essentiel dans la gestion, le traitement et l’analyse d’importants volumes d'informations.

Le moteur de décompression de l'architecture Blackwell et la capacité d'accéder à la mémoire massive du CPU NVIDIA Grace™ avec une bande passante bidirectionnelle de 900 gigaoctets par seconde (Go/s) permettent d’accélérer l’intégralité du pipeline des requêtes de bases de données pour fournir des performances sans précédent dans les domaines de l'analyse et de la science des données avec une prise en charge optimale des formats de compression les plus récents, tels que LZ4, Snappy et Deflate..

Moteur RAS (fiabilité, disponibilité et maintenance)

Blackwell se distingue par une résilience intelligente avec un moteur RAS dédié de fiabilité, de disponibilité et de maintenance qui permet d’identifier plus rapidement les défaillances potentielles afin de minimiser les temps d'arrêt. Les capacités de gestion prédictive basées sur l’IA fournies par NVIDIA assurent une surveillance en continu de milliers de points de données sur l'infrastructure matérielle et logicielle afin de prévoir et de neutraliser les sources d'indisponibilité et d'inefficacité. Cette approche est la clé d'une résilience intelligente permettant de réaliser des économies substantielles en termes de temps, d’énergie et de coûts de calcul.

Le moteur RAS de NVIDIA fournit des informations de diagnostic approfondies permettant d’identifier tout aspect potentiellement préoccupant et de planifier les opérations de maintenance. Le moteur RAS réduit les délais de traitement en localisant rapidement la source des problèmes, de manière à minimiser les temps d’arrêt en permettant une résolution efficace.

Traitez en temps réel des modèles complexes dotés de plusieurs billions de paramètres avec NVIDIA GB200 NVL72

Le NVIDIA GB200 NVL72 permet de connecter 36 puces GB200 Grace Blackwell Superchip, dotées de 36 CPU Grace et de 72 GPU Blackwell, au sein d'une configuration rackable. Ce système unique en son genre constitue une solution évolutive à refroidissement liquide qui assure la mise en œuvre d'un domaine NVLink à 72 GPU pour fournir des performances d’inférence jusqu'à 30 fois plus rapides avec les grands modèles de langage dotés de plusieurs billions de paramètres.

En savoir plus sur NVIDIA GB200 NVL72

Dossier technique sur NVIDIA Blackwell

Obtenez plus d’informations sur l’architecture qui accélère l'avènement de la nouvelle ère de l’IA générative et du calcul accéléré.

Lire le dossier