Architettura NVIDIA Hopper

Il nuovo motore per l'infrastruttura IA fa passi da gigante nelle prestazioni.

La piattaforma di computing accelerato per i data center Carichi di lavoro di nuova generazione

Scopri la nuova frontiera nel computing accelerato con l'architettura NVIDIA Hopper. Con la capacità di scalare in modo sicuro carichi di lavoro diversi in ogni data center, da piccoli calcoli al computing exascale ad alte prestazioni (HPC) e modelli IA da miliardi di parametri, Hopper consente alle menti innovative più brillanti di lavorare al ritmo più veloce della storia umana.

Innovazioni tecnologiche

Realizzato con oltre 80 miliardi di transistor che utilizzano un processo TSMC 4N all'avanguardia, Hopper include cinque innovazioni rivoluzionarie che alimentano la GPU NVIDIA H100 Tensor Core e si combinano per offrire un'incredibile accelerazione 30 volte superiore rispetto alla precedente generazione sull'inferenza con IA del chatbot NVIDIA Megatron 530B, il modello di linguaggio generativo più grande del mondo.

Transformer Engine

Transformer Engine

L'architettura NVIDIA Hopper potenzia la tecnologia Tensor Core con Transformer Engine, progettato per accelerare il training di modelli IA. I Tensor Core Hopper hanno la capacità di applicare formati misti di precisione FP8 e FP16 per accelerare significativamente i calcoli IA per i trasformatori. Hopper triplica anche le operazioni in virgola mobile al secondo (FLOPS) per le precisioni TF32, FP64, FP16 e INT8 rispetto alla generazione precedente. Insieme a Transformer Engine e NVIDIA® NVLink® di quarta generazione, i Tensor Core Hopper alimentano un'accelerazione di grande magnitudo su carichi di lavoro HPC e IA.

Rete NVLink

Per sostenere la velocità del business, i modelli HPC exascale e IA a trilioni di parametri necessitano di una comunicazione fluida e ad alta velocità tra ogni GPU in un cluster di server per favorire un'accelerazione su larga scala.

NVLink di quarta generazione è un'interconnessione scale-up. Se abbinata al nuovo switch esterno NVLink, la rete NVLink ora consente la scalabilità dell'I/O multi-GPU su più server a 900 Gigabyte/secondo bidirezionale per GPU, oltre 7 volte la larghezza di banda di PCIe Gen5. La rete NVLink supporta cluster fino a 256 H100 connessi e offre una larghezza di banda 9 volte superiore rispetto a InfiniBand HDR su Ampere.

Inoltre NVLink ora supporta il calcolo in rete chiamato SHARP, precedentemente disponibile solo su InfiniBand, e può fornire un'incredibile densità di calcolo IA in termini di exaFLOP a FP8, garantendo al contempo 57,6 Terabyte/s di larghezza di banda All2All.

NVLink Switch System
NVIDIA Confidential Computing

NVIDIA Confidential Computing

Anche se i dati vengono crittografati a riposo nella memoria e in transito attraverso la rete, essi non lo sono durante l'elaborazione. Il computing riservato colma questa lacuna proteggendo i dati e le applicazioni in uso. L'architettura NVIDIA Hopper introduce la prima piattaforma di computing accelerato del mondo con funzionalità di computing riservato.

Con una sicurezza solida basata su hardware, gli utenti possono eseguire applicazioni in locale, nel cloud o sui sistemi perimetrali sapendo che le entità non autorizzate non possano visualizzare o modificare il codice e i dati dell'applicazione mentre sono in uso. Questo protegge la riservatezza e l'integrità di dati e applicazioni, con l'accelerazione senza precedenti delle GPU H100 per il training con IA, l'inferenza con IA e i carichi di lavoro HPC.

MIG di seconda generazione

Con Multi-Instance GPU (MIG), ciascuna GPU può essere partizionata in più istanze GPU, completamente isolate e sicure, ciascuna con la sua memoria, la sua cache e i core di calcolo. L'architettura Hopper migliora ulteriormente MIG supportando configurazioni multi-tenant e multiutente in ambienti virtualizzati su un massimo di sette istanze GPU, isolando in modo sicuro ciascuna istanza con computing riservato a livello di hardware e hypervisor. I decoder video dedicati per ogni istanza MIG offrono analisi video intelligenti sicure e ad alta produttività (IVA) su infrastruttura condivisa. Inoltre, con la profilazione MIG simultanea di Hopper, gli amministratori possono monitorare che l'accelerazione con GPU sia correttamente dimensionata e ottimizzare l'allocazione delle risorse per gli utenti.

Per i ricercatori con carichi di lavoro più piccoli, invece di noleggiare un'istanza CSP completa, è possibile scegliere di utilizzare MIG per isolare in modo sicuro una parte della GPU, garantendo al contempo che i dati siano al sicuro a riposo, in transito e durante l'elaborazione.

Second-Generation MIG
DPX Instructions

Istruzioni per DPX

La programmazione dinamica è una tecnica algoritmica per risolvere un problema ricorsivo complesso scomponendolo in sottoproblemi più semplici. Memorizzando i risultati dei sottoproblemi in modo da non doverli ricalcolare in seguito, si riducono i tempi e la complessità della risoluzione esponenziale. La programmazione dinamica è comunemente utilizzata in una vasta gamma di casi d'uso.  Ad esempio, Floyd-Warshall è un algoritmo di ottimizzazione d percorsi che può essere utilizzato per mappare i percorsi di spedizione più brevi. L'algoritmo Smith-Waterman viene utilizzato per le applicazioni di allineamento delle sequenze DNA e folding delle proteine.

Le istruzioni per Hopper DPX per accelerare gli algoritmi di programmazione dinamica di 40 volte rispetto ai server tradizionali con sola CPU dual-socket e 7 volte rispetto alle GPU con architettura NVIDIA Ampere. Questo porta a tempi significativamente più veloci nella diagnosi delle malattie, nelle ottimizzazioni dei percorsi e persino nell'analisi dei grafici.

Specifiche preliminari, soggette a modifica.

Approfondisci l'architettura NVIDIA Hopper