Architecture NVIDIA Blackwell

Exploitation des modèles d'IA générative à une échelle pouvant atteindre des billions de paramètres.

Repoussez les limites de l’IA générative

Découvrez les innovations révolutionnaires que la nouvelle architecture NVIDIA Blackwell apporte à l’IA générative et au calcul accéléré. En s’appuyant sur plusieurs générations de technologies NVIDIA, Blackwell ouvre le nouveau chapitre de l’IA générative avec des performances, une efficacité énergétique et une évolutivité sans précédent.

Présentation des avancées technologiques

Architecture d'IA unifiée

L'architecture Blackwell intègre 208 milliards de transistors basés sur le processus de fabrication TSMC 4NP et faisant appel au leadership reconnu de NVIDIA en matière de calcul accéléré, tandis que ses GPU embarquent les puces les plus puissantes jamais conçues. Ses deux circuits intégrés de taille optimale fournissent des performances de communication ultra-rapides pour les opérations d'IA tout en maximisant l'efficacité énergétique. Ils sont interconnectés via une interface Chip-to-Chip NVHyperfuse à 10 téraoctets par seconde (To/s), fournissant une vue GPU transparente et unifiée pour l'ensemble des caches et des communications.

Moteur d'IA générative

Outre la prise en charge de la technologie de moteur de transformation qui accélère l’entraînement des modèles d'IA grâce aux niveaux de précision FP8 et FP16, Blackwell s'appuie sur un tout nouveau moteur d'IA générative. Le moteur d'IA générative fait appel à des cœurs Blackwell Tensor personnalisés pour accélérer les workflows d’inférence relatifs à l’IA générative et aux grands modèles de langage (LLM) avec de tout nouveaux formats de précision, notamment les formats MX (microscaling) définis par la communauté. Les formats MXFP4, MXFP6, MXFP8 et MXINT8 du moteur d'IA générative accélèrent les calculs de manière significative pour une nouvelle génération de LLM avec des performances accrues grâce à un encombrement réduit et à un rendement supérieur des modèles par rapport aux formats FP8 et FP16.

IA sécurisée

Les LLM recèlent un immense potentiel pour les entreprises. L’optimisation des revenus, l'accès à de nouvelles perspectives commerciales et la production de contenu génératif comptent parmi les nombreux avantages de cette technologie. L'adoption des LLM peut néanmoins s'avérer complexe pour les entreprises qui doivent procéder à un entraînement des modèles sur des données propriétaires qui sont soumises à des exigences de confidentialité et/ou incluent des informations propriétaires pouvant poser des risques significatifs en cas d'exposition. Blackwell prend en charge la technologie NVIDIA Confidential Computing, qui protège les données sensibles et les modèles d’IA contre tout accès non autorisé grâce à un système avancé de sécurité matérielle.

NVLink, NVSwitch et système de commutation NVLink

Pour exploiter le plein potentiel du calcul Exascale et de nouveaux modèles d’IA pouvant inclure plusieurs billions de paramètres, il convient de mettre en œuvre des communications fluides et rapides entre chaque GPU au sein d’un cluster de serveurs. La technologie NVIDIA® NVLink® de cinquième génération repose sur un modèle d’interconnexion évolutif qui contribue à accélérer les performances des modèles d’IA incluant des billions de paramètres (voire beaucoup plus). 

La technologie NVIDIA NVSwitch™ de quatrième génération, qui fournit une bande passante de 130 To/s au sein d'un domaine NVLink à 72 GPU (NVL72), apporte une efficacité de bande passante 4 fois plus importante grâce à la prise en charge du protocole SHARP™ (NVIDIA Scalable Hierarchical Aggregation and Reduction Protocol) avec le format FP8. En ayant recours à la technologie NVSwitch, le système de commutation NVIDIA NVLink peut prendre en charge des clusters allant au-delà d’un seul serveur, tout en maintenant un impressionnant débit d’interconnexion s'élevant à 1,8 To/s. Les clusters multiserveurs avec NVLink permettent de mettre à niveau les communications GPU en les équilibrant avec l'augmentation de la puissance de calcul. Chaque domaine NVL72 peut ainsi fournir un rendement 9 fois plus élevé qu’avec un seul système à huit GPU. 

Moteur de décompression

Les workflows d’analyse de données et de gestion des bases de données s’appuient traditionnellement sur le traitement CPU pour les opérations de calcul. La science des données accélérée par GPU peut améliorer de manière significative les performances des workflows d’analyse de bout en bout, optimisant ainsi la création de valeur ajoutée tout en réduisant les coûts d’exploitation. Les bases de données qui s'appuient sur des frameworks comme Apache Spark jouent un rôle essentiel dans la gestion, le traitement et l’analyse d’importants volumes d'informations.

Le moteur de décompression de l'architecture Blackwell et la capacité d'accéder à la mémoire massive du CPU NVIDIA Grace™ avec une bande passante bidirectionnelle de 900 gigaoctets par seconde (Go/s) permettent d’accélérer l’intégralité du pipeline des requêtes de bases de données pour fournir des performances sans précédent dans les domaines de l’analyse et de la science des données. Grâce à la prise en charge des formats de compression les plus récents comme LZ4, Snappy et Deflate, l'architecture Blackwell fournit des performances jusqu’à 20 fois plus élevées qu’avec le calcul sur CPU et jusqu'à 7 fois plus élevées qu’avec les GPU NVIDIA H100 Tensor Core dans les benchmarks de requêtes.

Moteur RAS (fiabilité, disponibilité et maintenance)

Blackwell se distingue par une résilience intelligente avec un moteur RAS dédié de fiabilité, de disponibilité et de maintenance qui permet d’identifier plus rapidement les défaillances potentielles afin de minimiser les temps d'arrêt.  Les capacités de gestion prédictive basées sur l’IA fournies par NVIDIA assurent une surveillance en continu de milliers de points de données sur l'infrastructure matérielle et logicielle afin de prévoir et de neutraliser les sources d'indisponibilité et d'inefficacité. Cette approche est la clé d'une résilience intelligente permettant de réaliser des économies substantielles en termes de temps, d’énergie et de coûts de calcul. 

Le moteur RAS de NVIDIA fournit des informations de diagnostic approfondies permettant d’identifier tout aspect potentiellement préoccupant et de planifier les opérations de maintenance. Le moteur RAS réduit les délais de traitement en localisant rapidement la source des problèmes, de manière à minimiser les temps d’arrêt en permettant une résolution efficace.

Démarrage

Prévenez-moi quand l'architecture NVIDIA Blackwell sera disponible.