NVIDIA Grace Blackwell GB200

NVIDIA GB200 NVL72

Solution de pointe pour la nouvelle ère du calcul.

Traitez en temps réel des modèles complexes dotés de plusieurs billions de paramètres

Le GB200NVL72 permet de connecter 36 CPU Grace et 72 GPU Blackwell au sein d'une configuration rackable. Ce système unique en son genre constitue une solution rackable évolutive à refroidissement liquide qui assure la mise en œuvre d'un domaine NVLink à 72 GPU pour fournir des performances d’inférence jusqu'à 30 fois plus rapides avec les LLM dotés de plusieurs billions de paramètres.

La puce GB200 Grace Blackwell Superchip est un composant-clé du système NVIDIA GB200 NVL72. Elle contribue à connecter deux GPU NVIDIA Blackwell Tensor Core et un CPU NVIDIA Grace via l’interface d’interconnexion NVIDIA® NVLink®-C2C pour les deux GPU Blackwell.

Architecture rackable Blackwell pour l’entraînement et l’inférence en temps réel de modèles dotés de plusieurs billions de paramètres

Le NVIDIA GB200 NVL72 constitue un ordinateur dédié au calcul Exascale utilisable via un rack unique. En s'appuyant sur 36 systèmes GB200 interconnectés via le domaine NVIDIA® NVLink® le plus évolué à ce jour, le système de commutation NVLink permet de mettre en œuvre des communications GPU à faible latence à un débit record de 130 téraoctets par seconde (To/s) pour les charges de travail d’IA et de calcul haute performance (HPC).

Points-clés

Moteur du calcul accéléré et des applications d'IA de nouvelle génération

Inférence LLM

30X

Entraînement LLM

4X

Efficacité énergétique

25X

Traitement des données

18X

Inférence LLM et efficacité énergétique - Latence jeton-à-jeton (TTL) = 50 ms en temps réel ; Latence du premier jeton (FTL) = 5 s ; Longueur de séquence = 32 768 en entrée / 1024 en sortie. NVIDIA HGX™ H100 mis à l'échelle via InfiniBand (IB) vs GB200 NVL72. Entraînement 1.8T MOE 4096x avec HGX H100 mis à l'échelle via IB vs 456x avec GB200 NVL72 mis à l'échelle via IB. Taille de cluster : 32 768
Charge de travail portant sur des requêtes de jointure et d'agrégation de base de données avec compression Snappy / Deflate dérivées de TPC-H Q4. Implémentation de requêtes personnalisées pour un CPU x86, un GPU unique H100 et un GPU unique avec GB200 NLV72 vs un CPU Intel Xeon 8480+
Mesures de performance susceptibles d’être modifiées.

Inférence LLM en temps réel

GB200 embarque des capacités de pointe et un moteur d’inférence qui, grâce à un couplage via la technologie d’interconnexion NVIDIA® NVLink de cinquième génération, offrent des performances d’inférence LLM en temps réel jusqu'à 30 fois plus rapides pour le traitement de modèles de langage comportant plusieurs billions de paramètres. Cette avancée technologique s’appuie sur la génération la plus récente des cœurs Tensor, intégrant le niveau de précision FP4 en microscaling. En outre, le domaine GB200 NVL72 fait appel à la technologie NVLink et à des techniques de refroidissement liquide pour créer un rack unique de 72 GPU capable de réduire les goulets d’étranglement au niveau des communications.

Entraînement à grande échelle

GB200 inclut un moteur de transformation à précision FP8 qui fournit des capacités de calcul jusqu'à 4 fois plus rapides pour un traitement évolutif des grands modèles de langage. Ce gain de performance repose sur la technologie NVLink de cinquième génération, qui permet un débit d’interconnexion GPU-vers-GPU de 1,8 téraoctets par seconde (To/s) avec les solutions de mise en réseau InfiniBand et l'environnement logiciel NVIDIA Magnum IO™.

Infrastructure à haute efficacité énergétique

Les racks GB200 NVL72 à refroidissement liquide permettent de réduire l’empreinte carbone et la consommation énergétique des Data Centers. Le refroidissement liquide augmente la densité de calcul, réduit l'encombrement et facilite les communications GPU à haute bande passante et à faible latence avec les grandes architectures de domaine NVLink. Par rapport aux GPU H100 à refroidissement par air, les GB200 offrent des performances jusqu’à 25 fois plus élevées avec une consommation maîtrisée tout en réduisant jusqu’à 13 fois la consommation d’eau.

Traitement des données

Les bases de données jouent un rôle essentiel dans la gestion, le traitement et l’analyse d’importants volumes d'informations au sein des entreprises. GB200 tire parti de la bande passante élevée de l’interface NVLink-C2C et des moteurs de décompression dédiés de l'architecture NVIDIA Blackwell de manière à accélérer jusqu’à 18 fois le pipeline des requêtes de bases de données par rapport au traitement CPU, mais aussi à réduire jusqu’à 5 fois le coût total de possession.

Caractéristiques

Avancées technologiques

Architecture NVIDIA Blackwell

L’architecture NVIDIA Blackwell fournit des innovations cruciales pour le calcul accéléré et va définir la nouvelle ère de l'IA générative avec des performances, une efficacité et une évolutivité sans précédent.

CPU NVIDIA Grace

Le CPU NVIDIA Grace Superchip est un processeur révolutionnaire conçu pour les Data Centers modernes qui exécutent des applications d'IA, de Cloud et de calcul haute performance (HPC). Il fournit des performances et une bande passante mémoire exceptionnelles avec une efficacité énergétique deux fois plus élevée que les processeurs de serveur traditionnels.

NVIDIA NVLink de 5e génération

Pour exploiter le plein potentiel du calcul Exascale et de nouveaux modèles d’IA pouvant inclure plusieurs billions de paramètres, il convient de mettre en œuvre des communications fluides et rapides entre chaque GPU au sein d’un cluster de serveurs. La technologie NVLink de cinquième génération repose sur un modèle d’interconnexion évolutif qui contribue à accélérer les performances des modèles d’IA incluant des billions de paramètres (voire beaucoup plus).

NVIDIA Networking

Les réseaux de Data Centers jouent un rôle essentiel dans l’innovation et les performances des applications d’IA. Chaque réseau tient lieu de pilier pour l’entraînement des modèles d’IA distribuée et pour la mise en œuvre d'une IA générative à hautes performances. Les solutions de mise en réseau NVIDIA Quantum-X800 InfiniBand et NVIDIA Spectrum-X800 Ethernet ainsi que les DPU NVIDIA BlueField®-3 assurent une évolutivité efficace sur des centaines et des milliers de GPU Blackwell, fournissant ainsi des performances d’application optimales.

Spécifications

GB200 NVL721 - Spécifications

  GB200 NVL72 GB200 Grace Blackwell Superchip
Configuration 36 CPU Grace CPU et 72 GPU Blackwell 1 CPU Grace et 2 GPU Blackwell
FP4 Tensor Core2 1440 PFlops 40 PFlops
FP8/FP6 Tensor Core2 720 PFlops 20 PFlops
INT8 Tensor Core2 720 Pops 20 Pops
FP16/BF16 Tensor Core2 360 PFlops 10 PFlops
TF32 Tensor Core2 180 PFlops 5 PFlops
FP64 Tensor Core 3240 TFlops 90 TFlops
Mémoire GPU | Bande passante Jusqu’à 13,5 To HBM3e | 576 To/s Jusqu’à 384 Go HBM3e | 16 To/s
Bande passante NVLink 130 To/s 3,6 To/s
Nombre de cœurs CPU 2592 cœurs Arm® Neoverse V2 72 cœurs Arm Neoverse V2
Mémoire CPU | Bande passante Jusqu’à 17 To LPDDR5X | Jusqu’à 18,4 To/s Jusqu'à 480 Go LPDDR5X | Jusqu'à 512 Go/s

Démarrage

Ne manquez aucune information

Inscrivez-vous pour savoir quand NVIDIA Blackwell sera disponible.