GPU NVIDIA H100 Tensor Core

Prestazioni, scalabilità e sicurezza senza precedenti per ogni data center.

Un passo avanti enorme per il computing accelerato

Sfrutta prestazioni, scalabilità e sicurezza senza precedenti per ogni carico di lavoro con la GPU NVIDIA H100 Tensor Core. Con il sistema switch NVIDIA® NVLink®, è possibile collegare fino a 256 H100 per accelerare i carichi di lavoro exascale, mentre il Transformer Engine dedicato supporta modelli di linguaggio da trilioni di parametri. La H100 usa l'architettura NVIDIA Hopper per fornire IA conversazionale e accelerare modelli linguistici di grandi dimensioni di 30 volte rispetto alla generazione precedente.

Accelera in modo sicuro i carichi da Enterprise a Exascale

Training IA fino a 9 volte superiore sui modelli più grandi

Mixture of Experts (395 miliardi di parametri)

Training IA trasformazionale

Training IA trasformazionale

Le GPU NVIDIA H100 sono dotate di Tensor Core di quarta generazione e del Transformer Engine con precisione FP8 che offre un training fino a 9 volte più veloce rispetto alla generazione precedente per i modelli MoE (Mix-of-Experts). La combinazione di NVlink di quarta generazione, che offre 900 gigabyte al secondo (GB/s) di interconnessione GPU-GPU, NVSwitch, che accelera la comunicazione dei dati raccolti da ogni GPU su più nodi, PCIe Gen5 e il software NVIDIA Magnum IO offre scalabilità efficiente da cluster di piccole imprese a cluster GPU massicci e unificati.

La distribuzione di GPU H100 su scala per data center offre prestazioni senza precedenti e porta la nuova generazione di calcolo ad alte prestazioni (HPC) exascale e IA con trilioni di parametri alla portata di tutti i ricercatori.

Inferenza su deep learning in tempo reale

L'IA risolve una vasta gamma di sfide aziendali, utilizzando una gamma ugualmente ampia di reti neurali. Un ottimo acceleratore di inferenza IA non deve garantire solo le massime prestazioni ma anche la versatilità per accelerare tali reti.

H100 espande ulteriormente la leadership di NVIDIA nell'inferenza sul mercato con diversi progressi che accelerano l'inferenza fino a 30 volte e offrono la latenza più bassa. I Tensor Core di quarta generazione accelerano tutte le precisioni, tra cui FP64, TF32, FP32, FP16 e INT8, mentre il Transformer Engine utilizza FP8 e FP16 insieme per ridurre l'utilizzo della memoria e aumentare le prestazioni, mantenendo comunque l'accuratezza per i modelli linguistici di grandi dimensioni.

Prestazioni di inferenza IA fino a 30 volte superiori sui modelli più grandi

Megatron Chatbot Inference (530 Billion Parameters)

Inferenza su deep learning in tempo reale

Prestazioni fino a 7 volte superiori per applicazioni HPC

AI-fused HPC Applications

Calcolo ad alte prestazioni exascale

La piattaforma per data center NVIDIA offre guadagni in termini di prestazioni oltre la legge di Moore. Le nuove e rivoluzionarie funzionalità IA di H100 aumentano ulteriormente la potenza dell'HPC+IA per accelerare i tempi delle scoperte per scienziati e ricercatori che lavorano per risolvere le sfide più importanti del mondo.

La H100 triplica le operazioni in virgola mobile al secondo (FLOPS) dei Tensor Core a doppia precisione, offrendo 60 teraFLOPS di calcolo a FP64 per HPC. Le applicazioni HPC con IA integrata possono sfruttare la precisione TF32 di H100 per ottenere un petaFLOP di throughput per operazioni di moltiplicazione a matrici a precisione singola, senza alcuna modifica del codice.

La H100 include anche nuove istruzioni DPX che offrono prestazioni 7 volte superiori rispetto alle GPU NVIDIA V100 Tensor Core e accelerazioni 40 volte superiori rispetto ai server tradizionali basati su sola CPU dual-socket su algoritmi di programmazione dinamica come Smith-Waterman per l'allineamento delle sequenze del DNA.

Analisi dei dati

L'analisi dei dati spesso consuma la maggior parte del tempo nello sviluppo di applicazioni IA. Poiché i set di dati di grandi dimensioni sono disseminati su più server, le soluzioni scale-out con server commodity basati solo su CPU sono rallentati dalla carenza di prestazioni di calcolo scalabili.

I server accelerati con H100 offrono la potenza di calcolo, oltre a 3 terabyte al secondo (TB/s) di banda di memoria per GPU e scalabilità con NVLink e NVSwitch, per affrontare l'analisi dei dati con prestazioni elevate e scalabilità per supportare set di dati di grandi dimensioni. Insieme a NVIDIA Quantum-2 InfiniBand, il software Magnum IO, Spark 3.0 accelerato da GPU e NVIDIA RAPIDS, la piattaforma per data center NVIDIA è in grado di accelerare questi enormi carichi di lavoro a livelli mai visti prima in termini di prestazioni ed efficienza.

Server accelerati con H100
NVIDIA Multi-Instance GPU

Utilizzo di livello enterprise

I responsabili IT cercano di massimizzare l'utilizzo (sia di picco che medio) delle risorse di calcolo nel data center. Spesso utilizzano la riconfigurazione dinamica del calcolo per dimensionare correttamente le risorse per i carichi di lavoro in uso.

MIG di seconda generazione in H100 massimizza l'utilizzo di ciascuna GPU partizionandola in modo sicuro in ben sette istanze separate. Con il supporto per il computing riservato, H100 consente un utilizzo sicuro end-to-end e multi-tenant, ideale per gli ambienti CSP.

H100 con MIG consente ai gestori dell'infrastruttura di standardizzare l'infrastruttura accelerata da GPU, garantendo al contempo la flessibilità di eseguire il provisioning delle risorse della GPU con maggiore granularità, in modo da garantire agli sviluppatori la giusta capacità di calcolo accelerato e ottimizzare l'uso di tutte le risorse della GPU.

Sicurezza e computing riservato NVIDIA

Le attuali soluzioni di computing riservato sono basate su CPU, troppo limitate per i carichi di lavoro ad alta intensità di calcolo come IA e HPC. NVIDIA Confidential Computing è una funzionalità di sicurezza integrata dell'architettura NVIDIA Hopper che rende NVIDIA H100 il primo acceleratore al mondo con funzionalità di elaborazione riservate. Gli utenti possono tutelare la riservatezza e l'integrità dei dati e delle applicazioni durante l'elaborazione, ottenendo al contempo l'accelerazione senza precedenti delle GPU H100. La soluzione crea un ambiente di esecuzione affidabile (TEE) basato su hardware che protegge e isola l'intero carico di lavoro in esecuzione su una singola GPU H100, più GPU H100 all'interno di un nodo o singole istanze MIG. Le applicazioni accelerate da GPU possono essere eseguite invariate in ambienti TEE e non devono essere partizionate. Gli utenti possono combinare la potenza del software NVIDIA per IA e HPC con la sicurezza di un hardware comprovato offerto da NVIDIA Confidential Computing.

NVIDIA Confidential Computing Solutions
NVIDIA H100CX Converged Accelerator

Acceleratore convergente NVIDIA H100 CNX

NVIDIA H100 CNX combina la potenza di NVIDIA H100 con le funzionalità di networking avanzate della scheda di interfaccia di rete intelligente NVIDIA® ConnectX®-7 (SmartNIC) in un'unica piattaforma. Questa convergenza offre prestazioni senza precedenti per i carichi di lavoro ad alta intensità di input/output (I/O) basati su GPU, come il training IA distribuito nel data center aziendale e l'elaborazione 5G sui sistemi periferici.

Grace Hopper

La GPU Hopper H100 Tensor Core alimenterà l'architettura CPU+GPU NVIDIA Grace Hopper, progettata appositamente per il computing accelerato su larga scala e per fornire prestazioni 10 volte superiori per applicazioni IA e HPC e con modelli di grandi dimensioni. La CPU NVIDIA Grace sfrutta la flessibilità dell'architettura Arm® per creare un'architettura di CPU e server progettata da zero per il computing accelerato. La H100 è abbinata a Grace con l'interconnessione ultra veloce chip-to-chip di NVIDIA, offrendo 900 GB/s di larghezza di banda, 7 volte più veloce rispetto a PCIe Gen5. Questo design innovativo offrirà una larghezza di banda aggregata fino a 30 volte superiore rispetto ai server più veloci di oggi e prestazioni fino a 10 volte superiori per le applicazioni che eseguono terabyte di dati.

NVIDIA Confidential Computing Solutions

Specifiche del prodotto

Fattore di forma H100 SXM H100 PCIe
FP64 30 teraFLOPS 24 teraFLOPS
FP64 Tensor Core 60 teraFLOPS 48 teraFLOPS
FP32 60 teraFLOPS 48 teraFLOPS
TF32 Tensor Core 1.000 teraFLOPS* | 500 teraFLOPS 800 teraFLOPS* | 400 teraFLOPS
BFLOAT16 Tensor Core 2.000 teraFLOPS* | 1.000 teraFLOPS 1.600 teraFLOPS* | 800 teraFLOPS
FP16 Tensor Core 2.000 teraFLOPS* | 1.000 teraFLOPS 1.600 teraFLOPS* | 800 teraFLOPS
FP8 Tensor Core 4.000 teraFLOPS* | 2.000 teraFLOPS 3.200 teraFLOPS* | 1.600 teraFLOPS
INT8 Tensor Core 4.000 TOPS* | 2.000 TOPS 3.200 TOPS* | 1.600 TOPS
Memoria della GPU 80 GB 80 GB
Banda di memoria GPU 3 TB/s 2 TB/s
Decoder 7 NVDEC
7 JPEG
7 NVDEC
7 JPEG
TDP (Thermal Design Power) 700 W 350 W
Multi-Instance GPU Fino a 7 MIG a 10 GB
Fattore di forma SXM PCIe
Interconnessione NVLink: 900GB/s PCIe Gen5: 128 GB/s NVLINK: 600 GB/s PCIe Gen5: 128 GB/s
Opzioni server NVIDIA HGX H100 Partner e NVIDIA-Certified Systems con 4 o 8 GPU NVIDIA DGX H100 con 8 GPU Sistemi partner e NVIDIA-Certified Systems con 1–8 GPU

Approfondisci l'architettura NVIDIA Hopper