Architecture NVIDIA Hopper

Le nouveau moteur des infrastructures d’IA fournit des gains de performance exceptionnels.

Plateforme de calcul accéléré pour les
charges de travail de nouvelle génération

L’architecture NVIDIA Hopper est une avancée technologique majeure en matière de calcul accéléré. Hopper permet de faire évoluer en toute sécurité une grande variété de charges de travail sur chaque Data Center, des applications d’entreprise au HPC Exascale en passant par les modèles d’IA incluant des billions de paramètres, ce qui permet à de brillants innovateurs d’accomplir leurs projets les plus importants à une vitesse sans précédent.

Innovations technologiques

L’architecture Hopper, qui met à profit la puissance combinée de 80 milliards de transistors et adopte un processus TSMC 4N à la pointe de la technologie, propose cinq innovations majeures qui équipent le GPU NVIDIA H100 Tensor Core. Par rapport aux architectures de génération précédente, Hopper fournit par exemple des performances jusqu’à 30 fois plus rapides pour les inférences d’IA avec NVIDIA Megatron 530B, le modèle de langage génératif le plus avancé au monde.

Transformer Engine

Moteur de transformation

L’architecture NVIDIA Hopper enrichit la technologie Tensor Core avec un moteur de transformation spécialement conçu pour accélérer l’entraînement des modèles d’IA. Les cœurs Hopper Tensor ont la capacité d’exploiter des formats de précision mixtes FP8 et FP16 afin d’accélérer de manière significative les calculs d’IA pour les transformateurs. L’architecture Hopper triple le nombre d’opérations en virgule flottante par seconde (FLOPs) pour les calculs TF32, FP64, FP16 et INT8 par rapport à la génération précédente. Avec leur moteur de transformation et la technologie NVIDIA® NVLink® de quatrième génération, les cœurs Hopper Tensor fournissent des gains de performance significatifs pour les charges de travail de HPC et d’IA.

Réseau NVLink

Pour s’adapter au rythme des entreprises et répondre aux exigences du calcul intensif, les applications de HPC Exascale et les modèles d’IA incluant des billions de paramètres requièrent la mise en œuvre de communications fluides à haute vitesse entre tous les GPU du même cluster.

La technologie NVLink de quatrième génération constitue une solution d’interconnexion entièrement évolutive. Combiné au nouveau commutateur NVLink externe, le réseau NVLink permet de mettre à l’échelle des communications E/S multi-GPU sur plusieurs serveurs à un débit bidirectionnel de 900 Go/s par GPU, ce qui représente une bande passante 7 fois plus élevée que la norme PCIe Gen5. Le réseau NVLink est en mesure de prendre en charge des clusters de 256 GPU H100 interconnectés, et il offre une bande passante 9 fois plus élevée que l’InfiniBand HDR sur Ampere.

NvLink prend également en charge le calcul en réseau avec SHARP, qui était auparavant exclusivement disponible avec Infiniband, et il fournit une puissance exceptionnelle d’un exaflop pour les calculs d’IA à dispersion FP8 tout en garantissant une bande passante All-to-All pouvant atteindre 57,6 téraoctets par seconde (To/s).

NVLink Switch System
NVIDIA Confidential Computing

NVIDIA Confidential Computing

Même si les données sont cryptées quand elles sont au repos sur le système de stockage ou en transit sur le réseau, elles restent exposées aux menaces pendant leur traitement. La technologie Confidential Computing s’attache à combler cette lacune en protégeant les données et les applications en cours d’utilisation. L’architecture NVIDIA Hopper est la toute première plateforme de calcul accéléré à avoir été dotée de capacités de calcul confidentiel.

Grâce à une sécurité matérielle renforcée, les utilisateurs peuvent exécuter en toute confiance des applications sur site, dans le Cloud ou à l’Edge, en ayant la certitude que les entités non autorisées ne pourront pas visualiser ou modifier le code et les données d’application pendant leur utilisation. Vous pouvez ainsi protéger la confidentialité et renforcer l’intégrité de vos données et de vos applications, tout en bénéficiant des capacités d’accélération sans précédent des GPU H100 pour l’entraînement et l’inférence des modèles d’IA ou l’exécution des workflows de calcul haute performance.

MIG de seconde génération

Grâce à la technologie de GPU multi-instances (MIG), n’importe quel GPU peut être partitionné en plusieurs instances, entièrement isolées et sécurisées au niveau matériel avec leur propre mémoire, un cache spécial et des cœurs de calcul dédiés. L’architecture Hopper optimise davantage la technologie MIG en prenant en charge des configurations mutualisées et multi-utilisateurs dans un environnement virtualisé pouvant accueillir jusqu’à sept instances de GPU, chacune d’entre elles étant isolée avec des capacités de calcul confidentiel au niveau du matériel et de l’hyperviseur. Les décodeurs vidéo dédiés de chaque instance MIG facilitent la mise en œuvre d’une analyse vidéo intelligente (IVA) sécurisée et performante sur une infrastructure partagée. Grâce au profilage MIG simultané de l’architecture Hopper, les administrateurs peuvent activer une accélération GPU parfaitement calibrée pour chaque tâche et optimiser l’allocation des ressources pour tous les utilisateurs.

Plutôt que de louer une instance dédiée auprès d’un fournisseur de services Cloud, les chercheurs qui doivent traiter de petites charges de travail peuvent choisir d’utiliser la technologie MIG pour isoler en toute sécurité une partie d’un GPU tout en ayant la certitude que leurs données seront parfaitement sécurisées, que ce soit au repos, en transit ou pendant les opérations de calcul.

Second-Generation MIG
DPX Instructions

Instructions DPX

La programmation dynamique est une technique d’algorithmique qui permet de résoudre un problème récursif complexe en le transformant en sous-problèmes plus simples. En stockant les résultats des sous-problèmes de manière à ce que vous n’ayez pas à les recompiler ultérieurement, vous pouvez réduire le temps et la complexité relatifs à la résolution des problèmes. La programmation dynamique est couramment utilisée dans une grande variété de cas d’utilisation.  Floyd-Warshall est par exemple un algorithme d’optimisation d’itinéraires qui permet de cartographier les itinéraires les plus courts pour les flottes d’expédition et de livraison. L’algorithme Smith-Waterman est quant à lui utilisé pour l’alignement des séquences ADN et les applications de repliement des protéines.

Hopper met en œuvre des instructions DPX qui accélèrent les algorithmes de programmation dynamique jusqu’à 40 fois par rapport aux CPU Dual-Socket traditionnels et jusqu’à 7 fois par rapport aux GPU à architecture NVIDIA Ampere. Cette innovation technologique permet d’accélérer de manière significative le diagnostic des maladies, les optimisations de routage et l’analyse de graphes.

Spécifications préliminaires susceptibles d’être modifiées.

Plongez au cœur de l’architecture NVIDIA Hopper