NVIDIA Grace Blackwell GB200

NVIDIA GB200 NVL72

La nuova era del computing.

Sbloccare modelli con miliardi di parametri in tempo reale

GB200 NVL72 collega 36 CPU Grace e 72 GPU Blackwell in un design rack. Il sistema GB200 NVL72 è una soluzione rack-scale con raffreddamento a liquido con un dominio NVLink a 72 GPU che funge da GPU singola e offre inferenza in tempo reale 30 volte più veloce su LL con miliardi di parametri.

Il superchip GB200 Grace Blackwell è un componente essenziale del sistema NVIDIA GB200 NVL72, che collega due GPU NVIDIA Blackwell Tensor Core ad alte prestazioni e una CPU NVIDIA Grace tramite l'interconnessione NVIDIA® NVLink®-C2C alle due GPU Blackwell.

L'architettura Blackwell Rack-Scale per inferenza e training con miliardi di parametri in tempo reale

NVIDIA GB200 NVL72 è un computer exascale in un singolo rack. Con 36 GB200 interconnessi dal più grande dominio NVIDIA® NVLink® mai offerto, il sistema NVLink Switch offre 130 terabyte al secondo (TB/s) di comunicazioni GPU a bassa latenza per carichi di lavoro IA e HPC.

In evidenza

La super potenza dell'IA di nuova generazione e del computing accelerato

Inferenza con LLM

30X

Training di LLM

4X

Efficienza energetica

25X

Elaborazione dati

18X

Inferenza ed efficienza energetica LLM: TTL = 50 millisecondi (ms) in tempo reale, FTL = 5 s, 32.768 input/1.024 output, NVIDIA HGX™ H100 in scala su InfiniBand (IB) rispetto a GB200 NVL72, training di 1,8 T MOE 4096x HGX H100 in scala su IB rispetto a 456 x GB200 NVL72 in scala su IB. Dimensioni cluster: 32.768
Carico di lavoro di aggregazione e unione nel database con compressione Snappy/Deflate derivata da query TPC-H Q4. Implementazione di query personalizzate per x86, H100 singola GPU e singola GPU da GB200 NLV72 rispetto a Intel Xeon 8480+
Prestazioni previste soggette a modifica.

Inferenza LLM in tempo reale

GB200 introduce funzionalità all'avanguardia e un motore di inferenza che, abbinato a NVIDIA® NVLink di quinta generazione, offre prestazioni di inferenza LLM in tempo reale 30 volte più veloci per modelli di linguaggio con miliardi di parametri. Questo miglioramento è reso possibile con una nuova generazione di Tensor Core, che introducono nuove precisioni FP4 in microscaling. Inoltre, GB200 NVL72 utilizza NVLink e il raffreddamento a liquido per creare un singolo enorme rack da 72 GPU in grado di superare i colli di bottiglia della comunicazione.

Training su larga scala

GB200 include un Transformer Engine più veloce con precisione FP8, che consente un training 4 volte più veloce per modelli linguistici di grandi dimensioni su larga scala. Questa innovazione è completata da NVLink di quinta generazione, che fornisce 1,8 terabyte al secondo (TB/s) di interconnessione GPU-GPU, rete InfiniBand e software NVIDIA Magnum IO™.

Infrastruttura a efficienza energetica

I rack GB200 NVL72 con raffreddamento a liquido riducono l'impronta di carbonio e il consumo energetico del data center. Il raffreddamento a liquido aumenta la densità di calcolo, riduce l'ingombro utilizzato e facilita la comunicazione tra GPU ad alta larghezza di banda e a bassa latenza con le architetture di dominio NVLink. Rispetto all'infrastruttura H100 con raffreddamento ad aria, GB200 offre prestazioni 30 volte superiori con gli stessi requisiti di alimentazione, riducendo il consumo di acqua di oltre 13 volte.

Elaborazione dei dati

I database, ricoprono ruoli critici nella gestione, nell'elaborazione e nell'analisi di grandi volumi di dati per le imprese. GB200 sfrutta l'alta larghezza di banda NVLink-C2C e i motori di decompressione dedicati dell'architettura NVIDIA Blackwell per accelerare le principali query del database di 18 volte rispetto alla CPU e fornire un TCO 5 volte superiore.

Caratteristiche

Innovazioni tecnologiche

Architettura Blackwell

L'architettura NVIDIA Blackwell offre progressi all'avanguardia nel computing accelerato, definendo la nuova era dell'IA generativa con prestazioni, efficienza e scalabilità senza pari.

CPU NVIDIA Grace

Il superchip NVIDIA Grace CPU è un processore all'avanguardia progettato per i data center moderni che eseguono applicazioni IA, cloud e HPC. Offre prestazioni e larghezza di banda di memoria eccezionali con un'efficienza energetica 2 volte superiore rispetto ai principali processori server di oggi.

NVIDIA NVLink di quinta generazione

La capacità di sfruttare tutto il potenziale del calcolo exascale e dei modelli IA da miliardi di parametri richiede una comunicazione rapida e fluida tra tutte le GPU all'interno di un cluster di server. La quinta generazione di NVLink è un'interconnessione scale-up che libera prestazioni accelerate per modelli IA con parametri nell'ordine di grandezza dei miliardi di miliardi.

NVIDIA Networking

La rete del data center svolge un ruolo cruciale nel favorire i progressi e le prestazioni IA, fungendo da spina dorsale per il training dei modelli IA distribuiti e le prestazioni di IA generativa. NVIDIA Quantum-X800 InfiniBand, NVIDIA Spectrum™-X800 Ethernet e le DPU NVIDIA BlueField®-3 consentono una scalabilità efficiente su migliaia di GPU Blackwell per prestazioni applicative ottimali.

Specifiche

Specifiche di GB200 NVL721

  GB200 NVL72 Superchip Grace Blackwell GB200
Configurazioni 36 CPU Grace: 72 GPU Blackwell 1 CPU Grace: 2 GPU Blackwell
FP4 Tensor Core2 1.440 PFLOPS 40 PFLOPS
FP8/FP6 Tensor Core2 720 PFLOPS 20 PFLOPS
INT8 Tensor Core2 720 POPS 20 POPS
FP16/BF16 Tensor Core2 360 PFLOPS 10 PFLOPS
TF32 Tensor Core2 180 PFLOPS 5 PFLOPS
FP64 Tensor Core 3,240 TFLOPS 90 TFLOPS
Memoria della GPU | Larghezza di banda Fino a 13,5 TB HBM3e | 576 TB/s Fino a 384 GB HBM3e | 16 TB/s
Banda NVLink 130 TB/s 3,6 TB/s
Numero di core CPU 2.592 Core Arm® Neoverse V2 72 Core Arm Neoverse V2
Memoria della CPU | Larghezza di banda Fino a 17 TB LPDDR5X | Fino a 18,4 TB/s Fino a 480 GB | Fino a 512 GB/s

Inizia

Resta aggiornato

Iscriviti per sapere quando NVIDIA Blackwell sarà disponibile.