NVIDIA Blackwell Architecture

Il motore della nuova rivoluzione industriale.

Introduzione
Innovazioni tecnologiche
GB200 NVL72
Sintesi tecnica

Introduzione
Innovazioni tecnologiche
GB200 NVL72
Sintesi tecnica

Abbatere le barriere per il computing accelerato e l'IA generativa

Esplora i progressi rivoluzionari che l'architettura NVIDIA Blackwell introduce nell'IA generativa e nel computing accelerato. Basandosi su generazioni di tecnologie NVIDIA, Blackwell definisce la nuova era dell'IA generativa con prestazioni, efficienza e scalabilità senza pari.

Uno sguardo alle innovazioni tecnologiche

Una nuova classe di superchip IA

Le GPU con architettura Blackwell includono 208 miliardi di transistor e sono prodotte utilizzando un processo TSMC 4NP personalizzato. Tutti i prodotti Blackwell sono dotati di due matrici a reticoli limitati collegati da un'interconnessione chip-chip da 10 terabyte al secondo (TB/s) in una singola GPU unificata.

Transformer Engine di seconda generazione

Il Transformer Engine di seconda generazione impiega la tecnologia Blackwell Tensor Core abbinata ai framework innovativi NVIDIA® TensorRT™-LLM e NeMo™ per accelerare l'inferenza e il training dei modelli linguistici di grandi dimensioni (LLM) e dei modelli MoE.

Per accelerare l'interferenza dei modello MoE, i Tensor Core di Blackwell aggiungono nuove precisioni, inclusi i formati di microscaling definiti dalla community, garantendo alta precisione e facilità di sostituzione per precisioni maggiori. Blackwell Transformer Engine utilizza tecniche di scaling granulari denominate micro-tensor scaling, per ottimizzare le prestazioni e l'accuratezza abilitando l'IA in virgola mobile (FP4) a 4 bit. Questo raddoppia le prestazioni e le dimensioni dei modelli di nuova generazione che la memoria può supportare mantenendo l'alta precisione.

IA sicura

Blackwell include NVIDIA Confidential Computing, che protegge i dati sensibili e i modelli IA da accessi non autorizzati con una solida sicurezza basata su hardware. Blackwell è la prima GPU del settore compatibile con TEE-I/O che offre la soluzione di calcolo riservato più performante con host compatibili con TEE-I/O e protezione in linea su NVIDIA® NVLink®. Il calcolo riservato di Blackwell offre prestazioni di throughput quasi identiche rispetto alle modalità non crittografate. Le aziende possono ora proteggere anche i modelli più grandi in modo efficiente, oltre alla proprietà intellettuale dell'IA e abilitare in modo sicuro il training con IA riservato, l'inferenza e il learning federato.

Scopri di più su NVIDIA Confidential Computing

Switch NVLink e NVSwitch

La capacità di sfruttare tutto il potenziale del calcolo exascale e dei modelli IA da miliardi di parametri scaturisce dalla necessità di una comunicazione rapida e fluida tra tutte le GPU all'interno di un cluster di server. La quinta generazione di NVIDIA® NVLink® è un'interconnessione scale-up con fino a 576 GPU per raggiungere prestazioni accelerate per modelli IA con milioni di miliardi di parametri.

Il chip switch NVIDIA NVLink consente 130 TB/s di larghezza di banda della GPU in un dominio NVLink a 72 GPU (NVL72) e offre un'efficienza della larghezza di banda 4 volte superiore con il supporto del protocollo NVIDIA Scalable Hierarchical Aggregation and Reduction Protocol (SHARP)™ FP8. Il chip NVIDIA NVLink Switch supporta cluster oltre a un singolo server alla stessa interconnessione impressionante di 1,8 TB/s. I cluster multi-server con NVLink scalano le comunicazioni tramite GPU in modo da bilanciare le prestazioni di calcolo, così che NVL72 possa supportare un throughput della GPU 9 volte superiore rispetto a un singolo sistema a otto GPU.

Scopri di più su NVIDIA NVLink e NVLink Switch

Motore di decompressione

L'analisi dei dati e i flussi di lavoro del database sono sempre stati ad appannaggio delle CPU per le operazioni di calcolo. La scienza dei dati accelerata può aumentare significativamente le prestazioni dell'analisi dei dati completa, accelerando la generazione di valore e riducendo i costi. I database, incluso Apache Spark, ricoprono ruoli critici nella gestione, nell'elaborazione e nell'analisi di grandi volumi di dati in ambito di data analytics.

Il motore di decompressione Blackwell e la capacità di accedere a enormi quantità di memoria della GPU NVIDIA Grace™ su un link ad alta velocità, 900 gigabyte al secondo (GB/s) di larghezza di banda bidirezionale, accelerano l'intera pipeline di query del database per le massime prestazioni in ambito di data analytics e scienza dei dati,con il supporto per i più recenti formati di compressione come LZ4, Snappy e Deflate.

Motore RAS (affidabilità, disponibilità e manutenzione)

Blackwell aggiunge la resilienza intelligente con un motore RAS dedicato per l'affidabilità, la disponibilità e la manutenzione per identificare precocemente potenziali guasti e ridurre al minimo i tempi di inattività. Le funzionalità di gestione predittiva basate su NVIDIA AI monitorano continuamente migliaia di punti di dati su hardware e software per verificarne l'integrità generale per prevedere e intercettare le cause di downtime e inefficienza. Questo crea una resilienza intelligente che consente di risparmiare tempo, energia e costi di calcolo.

Il motore NVIDIA RAS fornisce informazioni diagnostiche approfondite in grado di identificare le aree problematiche e pianificare gli interventi di manutenzione. Il motore RAS riduce i tempi di risposta localizzando rapidamente l'origine dei problemi e riduce al minimo i tempi di inattività, facilitando l'efficacia delle risoluzioni.

Sblocca i modelli con miliardi di parametri in tempo reale con NVIDIA GB200 NVL72

NVIDIA GB200 NVL72 connette 36 superchip GB200 Grace Blackwell con 36 CPU Grace e GPU 72 Blackwell in un desing rack. Il sistema GB200 NVL72 è una soluzione con raffreddamento a liquido con un dominio NVLink a 72 GPU che funge da GPU singola e offre inferenza in tempo reale 30 volte più veloce su modelli linguistici di grandi dimensioni con miliardi di parametri.

Scopri di più su NVIDIA GB200 NVL72

Sintesi tecnica di NVIDIA Blackwell

Scopri di più sull'architettura che sta alimentando la nuova era dell'IA generativa e del computing accelerato.

Leggi ora