NVIDIA H100 Tensor Core GPU

GPU NVIDIA H100 Tensor Core

Des performances, une évolutivité et une sécurité extraordinaires pour chaque Data Center.

Une avancée significative pour le calcul accéléré

Profitez de performances, d’une évolutivité et d’une sécurité extraordinaires avec toutes vos charges de travail grâce au GPU NVIDIA H100 Tensor Core. Le système de commutation NVIDIA NVLink™ vous permetde connecter jusqu’à 256 GPU H100 pour accélérer les calculs Exascale, tandis qu’un moteur de transformation dédié vous aide à entraîner des modèles de langage complexes dotés de plusieurs billions de paramètres. Les innovations technologiques sur lesquelles repose le GPU H100 contribuent à accélérer jusqu’à 30 fois le traitement des grands modèles de langage (LLM) par rapport aux produits de génération précédente, vous offrant ainsi des capacités d’IA conversationnelle à la pointe de l’industrie.

Accélérez l'inférence avec de grands modèles de langage

Pour faciliter le traitement de LLM pouvant inclure jusqu'à 175 milliards de paramètres, le pont H100 NVL basé sur PCIe avec NVLink fait appel à un moteur de transformation dédié, à la technologie NVLink et à 188 Go de mémoire HBM3 pour fournir des performances optimales tout en améliorant l'évolutivité des Data Centers, apportant ainsi au grand public les capacités sans précédent des LLM. Les serveurs équipés de GPU H100 NVL accélèrent jusqu’à 12 fois les performances du modèle GPT-175B par rapport au système NVIDIA DGX™ A100 tout en minimisant la latence dans les environnements de Data Center faisant l'objet de contraintes énergétiques.

Vous voulez déployer l’IA dans votre entreprise ?

Les entreprises du monde entier, qui ont plébiscité l’adoption de l’IA, requièrent une infrastructure de bout en bout prête pour l’IA afin de les accompagner dans cette nouvelle ère.

Le GPU H100 pour les serveurs grand public est fourni avec un abonnement de cinq ans à la suite logicielle NVIDIA AI Enterprise et à ses services d’assistance dédiés, simplifiant ainsi l’adoption de l’IA avec des performances maximales. Cette solution avantageuse permet aux entreprises d’accéder aux frameworks et aux outils d’IA dont elles ont besoin pour mettre en œuvre des workflows d’IA accélérés par le GPU H100 dans des champs d’application comme les chatbots, les moteurs de recommandation ou bien encore la vision basée sur l’IA.

Accélération sécurisée de vos charges de travail, des applications d’entreprise à l’Exascale

Entraînement IA jusqu'à 4 fois plus rapide sur GPT-3

Projections de performance susceptibles d’être modifiées.  Entraînement IA avec un modèle GPT-3 175B ; Cluster A100 : réseau HDR IB ; Cluster H100 : réseau NDR IB | Entraînement d’une variante MoE (Mixture of Experts) de transformateur Switch-XXL avec des paramètres 395B sur un jeu de données de jetons 1T ;  Cluster A100 : réseau HDR IB ; Cluster H100 : réseau NDR IB avec système de commutation NVLINK (dans les cas indiqués).

Mise en œuvre d’une IA transformationnelle

Les GPU H100 intègrent des cœurs Tensor de quatrième génération et un moteur de transformation à précision FP8 permettant un entraînement jusqu’à 4 fois plus rapide des modèles GPT-3 (175B) par rapport à la génération précédente. La combinaison de la technologie NVLink de quatrième génération, qui fournit un débit d’interconnexion GPU-vers-GPU de 900 gigaoctets par seconde (Go/s), du protocole de mise en réseau NDR Quantum-2 InfiniBand, qui accélère les communications entre tous les GPU d'un seul nœud ; de la norme PCIe Gen5 et de l'environnement logiciel NVIDIA Magnum IO™ offre une évolutivité optimale aux petites infrastructures d’entreprise comme aux grands clusters de GPU unifiés.

Le déploiement des GPU H100 à l’échelle des Data Centers offre des performances de calcul exceptionnelles et fait entrer les chercheurs dans la nouvelle ère du HPC Exascale, avec des modèles d’IA incluant des billions de paramètres.

Inférences Deep Learning en temps réel

L’IA permet de relever une multitude de défis commerciaux en mettant à profit un grand nombre de réseaux de neurones. Un bon accélérateur d’inférences IA doit permettre d’améliorer les performances de calcul tout en s’avérant suffisamment polyvalent pour accélérer l’ensemble de ces réseaux de neurones.

Le GPU H100, qui s’appuie sur le leadership de NVIDIA, met en œuvre plusieurs avancées technologiques qui accélèrent jusqu’à 30 fois les workflows d’inférence tout en réduisant la latence. Les cœurs Tensor de quatrième génération accélèrent les calculs à tous les niveaux de précision (FP64, TF32, FP32, FP16, INT8 et désormais FP8) pour réduire l’utilisation de la mémoire et augmenter les performances tout en maximisant la précision relative aux modèles de langage les plus complexes.

Performances d’inférence IA jusqu’à 30 fois plus élevées pour les modèles les plus complexes

Inférences chatbot Megatron (530 milliards de paramètres)

Projections de performance susceptibles d’être modifiées. Inférence pour un chatbot basé sur un modèle Megatron 530B paramétrable pour une séquence d’entrée de 128 et une séquence de sortie de 20 | Cluster A100 : réseau HDR IB | Cluster H100 : système de commutation NVLink, réseau NDR IB

Performances jusqu’à 7 fois plus élevées pour les applications HPC

Projections de performance susceptibles d’être modifiées. Rendement 3D FFT (4K^3) | Cluster A100 : réseau HDR IB | Cluster H100 : système de commutation NVLink, réseau NDR IB | Séquençage génomique (Smith-Waterman) | 1x A100 | 1x H100

Calcul haute performance Exascale

La plateforme de NVIDIA pour Data Center offre des gains constants de performance qui vont bien au-delà de la loi de Moore. Les nouvelles capacités du GPU H100 amplifient les capacités de l’IA et du HPC pour accélérer les projets des scientifiques et des chercheurs qui cherchent à relever les défis les plus importants au monde.

H100 triple le nombre d’opérations en virgule flottante par seconde (FLOPs) avec les cœurs Tensor en double précision, fournissant ainsi une puissance totale de 60 téraflops pour les calculs FP64 dans les applications HPC. Les applications HPC avec IA intégrée peuvent également tirer parti du niveau de précision TF32 du GPU H100 pour atteindre un pétaflop de rendement afin d’accélérer les opérations de multiplication matricielle en simple précision, sans le moindre changement de code.

H100 intègre en outre de nouvelles instructions DPX qui contribuent à fournir des performances 7 fois plus élevées qu’avec les GPU A100 et 40 fois plus rapides qu’avec les CPU pour les algorithmes de programmation dynamique tels que Smith-Waterman, servant à l’alignement des séquences ADN et à l’alignement de protéines pour la prédiction des structures protéiques.

Instructions DPX : comparatif NVIDIA HGX™ H100 avec 4 GPU vs processeur Ice Lake dual-socket 32 cœurs.

Accélération de l’analyse de données

L’analyse de données peut prendre beaucoup de temps lors du développement de nouvelles applications d’IA. Étant donné que des jeux de données volumineux sont hébergés sur de multiples serveurs, les solutions Scale-Out des serveurs CPU génériques sont aujourd’hui impactées par un manque de performance et d’évolutivité.

Les serveurs accélérés par les GPU H100 fournissent une puissance de calcul exceptionnelle ainsi qu’une bande passante de 3 To/s par GPU, sans oublier une évolutivité incomparable grâce aux technologies NVLink et NVSwitch™. Vous pouvez ainsi traiter les tâches d’analyse de données avec des performances et une évolutivité sans précédent, mais aussi prendre en charge des jeux de données d’une grande complexité. Associée à la technologie NVIDIA Quantum-2 Infiniband, au SDK Magnum IO, à la solution Spark 3.0 accélérée par GPU et aux bibliothèques logicielles NVIDIA RAPIDS™, la plateforme de NVIDIA pour Data Center a été spécialement conçue pour accélérer ces charges de travail de manière significative avec des performances et une efficacité incomparables.

Conçu pour une utilisation en entreprise

Les responsables informatiques cherchent à optimiser l’utilisation maximale et moyenne des ressources de calcul sur les Data Centers. Pour ce faire, ils ont le plus souvent recours à une technique de reconfiguration dynamique pour adapter les ressources de calcul aux charges de travail en cours d’utilisation.

H100 avec MIG permet aux gestionnaires informatiques de standardiser leur infrastructure accélérée par GPU tout en disposant de suffisamment de polyvalence pour procéder à une allocation des ressources GPU avec une granularité accrue, de manière à offrir aux développeurs des capacités de calcul adéquates et à garantir une utilisation optimale de toutes les ressources GPU.

Calcul confidentiel intégré

Aujourd'hui, les solutions traditionnelles de calcul confidentiel reposent encore sur le traitement CPU, ce qui met un frein à leur adoption pour les workflows de calcul intensif en matière d’IA à l'échelle. NVIDIA Confidential Computing est une fonctionnalité de sécurité intégrée de l’architecture NVIDIA Hopper™, qui fait du GPU H100 le tout premier accélérateur au monde doté de capacités de calcul confidentiel. De plus, grâce à NVIDIA Blackwell, la possibilité d’augmenter les performances de manière exponentielle tout en protégeant la confidentialité et l’intégrité des données et des applications en cours d’exécution permet de débloquer l'accès à de nouvelles ressources à haute valeur ajoutée. Les utilisateurs peuvent désormais utiliser un environnement d’exécution de confiance (TEE) basé sur le matériel, qui permet de sécuriser et d’isoler l’intégralité de la charge de travail avec des performances optimales.

Performances incomparables pour les workflows IA et HPC à grande échelle

Le GPU Hopper Tensor Core va équiper l’architecture NVIDIA Grace Hopper CPU+GPU, spécifiquement conçue pour accélérer les calculs informatiques mobilisant plusieurs téraoctets de données, mais aussi fournir des performances 10 fois plus élevées avec les workflows d’IA et de HPC reposant sur des modèles complexes. Le CPU NVIDIA Grace tire parti de la grande polyvalence de l’architecture Arm® pour proposer une architecture de processeur et de serveur visant à accélérer les calculs informatiques. Le GPU Hopper est associé à Grace via la technologie d’interconnexion chip-to-chip de NVIDIA qui fournit une bande passante totale de 900 Go/s, soit sept fois plus que la norme PCIe Gen5. Cette conception novatrice fournit au GPU une bande passante globale jusqu’à 30 fois plus élevée par rapport aux serveurs généralistes les plus rapides de l’industrie ainsi que des performances de calcul jusqu’à 10 fois plus élevées pour les applications faisant appel à plusieurs téraoctets de données.

Caractéristiques du produit

Configuration H100 SXM H100 PCIe H100 NVL1
FP64 34 teraFLOPS 26 teraFLOPS 68 teraFLOPs
FP64 Tensor Core 67 teraFLOPS 51 teraFLOPS 134 teraFLOPs
FP32 67 teraFLOPS 51 teraFLOPS 134 teraFLOPs
TF32 Tensor Core 989 teraFLOPS2 756 teraFLOPS2 1979 teraFLOPs2
BFLOAT16 Tensor Core 1979 teraFLOPS2 1513 teraFLOPS2 3958 teraFLOPs2
FP16 Tensor Core 1979 teraFLOPS2 1513 teraFLOPS2 3958 teraFLOPs2
FP8 Tensor Core 3958 teraFLOPS2 3026 teraFLOPS2 7916 teraFLOPs2
INT8 Tensor Core 3958 TOPS2 3026 TOPS2 7916 TOPS2
Mémoire GPU 80GB 80GB 188GB
Bande passante GPU 3.35TB/s 2TB/s 7.8TB/s3
Décodeurs 7 NVDEC
7 JPEG
7 NVDEC
7 JPEG
14 NVDEC
14 JPEG
Enveloppe thermique (TDP) Jusqu’à 700 W (configurable) 300 W–350 W (configurable) 2x 350-400 W (configurables)
GPU multi-instances Jusqu’à 7 instances MIG à 10 Go Jusqu’à 14 instances MIG à 12 Go
Configuration SXM PCIe
Refroidissement par air Dual-Slot
2x PCIe
Refroidissement par air Dual-Slot
Interconnexion NVLink: 900GB/s
PCIe Gen5: 128GB/s
NVLink: 600GB/s
PCIe Gen5: 128GB/s
NVLink: 600GB/s
PCIe Gen5: 128GB/s
Options de serveur Systèmes partenaires NVIDIA HGX™ H100, systèmes NVIDIA certifiés™ avec 4 ou 8 GPU et NVIDIA DGX™ H100 avec 8 GPU Systèmes partenaires et systèmes NVIDIA certifiés™ avec de 1 à 8 GPU Systèmes partenaires et systèmes NVIDIA certifiés avec de 2 à 4 paires
NVIDIA AI Enterprise Extension Inclus Inclus

Plongez au cœur de l’architecture NVIDIA Hopper.