NVIDIA H100 Tensor Core GPU

GPU NVIDIA H100 Tensor Core

Prestazioni, scalabilità e sicurezza straordinarie per ogni data center.

Un passo avanti enorme per il computing accelerato

Sfrutta prestazioni, scalabilità e sicurezza eccezionali per ogni carico di lavoro con la GPU NVIDIA H100 Tensor Core. Con il sistema NVIDIA NVLink™ Switch, è possibile collegare fino a 256 GPU H100 per accelerare i carichi di lavoro exascale. La GPU include anche un Transformer Engine dedicato per risolvere modelli di linguaggio da miliardi di parametri. Le innovazioni tecnologiche combinate della H100 possono accelerare modelli linguistici di grandi dimensioni (LLM) di 30 volte rispetto alla generazione precedente per fornire un'IA conversazionale leader di settore.

La superpotenza per l'inferenza con modelli linguistici di grandi dimensioni

Per LLM fino a 175 miliardi di parametri, la H100 NVL basata su PCIe con bridge NVLink utilizza Transformer Engine, NVLink e una memoria HBM3 da 188 GB per fornire prestazioni ottimali e facile scalabilità in qualsiasi data center, portando gli LLM nel mainstream. I server dotati di GPU H100 NVL aumentano le prestazioni del modello GPT-175B fino a 12 volte rispetto ai sistemi NVIDIA DGX™ A100 mantenendo bassa la latenza in ambienti di data center con vincoli energetici.

Pronto per l'IA aziendale?

L'adozione dell'IA da parte delle aziende è ormai diffusa e le organizzazioni hanno bisogno di un'infrastruttura completa e pronta che le aiuti ad accelerare il passaggio a questa nuova era.

La scheda H100 per i server mainstream include un abbonamento di cinque anni con supporto Enterprise, alla suite software NVIDIA AI Enterprise, che semplifica l'adozione dell'IA con le massime prestazioni. Questo garantisce alle aziende l'accesso ai framework e agli strumenti IA di cui hanno bisogno per creare flussi di lavoro accelerati da H100 come chatbot IA, generatori di consigli, IA visiva e non solo.

Accelera in modo sicuro i carichi da Enterprisea Exascale

Training IA fino a 4 volte superiore su GPT-3

Prestazioni previste soggette a modifica.  Training del modello GPT-3 175B su cluster A100: rete HDR IB, cluster H100: rete NDR IB | Training di una variante del trasformatore MoE (MoE) con 395B parametri su set di dati di token 1T,  Cluster A100: rete HDR IB, cluster H100: rete NDR IB con sistema NVLink Switch dove indicato.

Training IA trasformazionale

La H100 è dotata di Tensor Core di quarta generazione e del Transformer Engine con precisione FP8 che offre un training fino a 4 volte più veloce rispetto alla generazione precedente per i modelli GPT-3 (175B). La combinazione di NVLink di quarta generazione, che offre 900 gigabyte al secondo (GB/s) di interconnessione GPU-GPU; rete NDR Quantum-2 InfiniBand, che accelera la comunicazione di ogni GPU tra i nodi, PCIe Gen5 e il software NVIDIA Magnum IO™ offre scalabilità efficiente da sistemi per piccole imprese a cluster GPU unificati e di grandi dimensioni.

La distribuzione di GPU H100 su scala per data center offre prestazioni straordinarie e porta la nuova generazione di calcolo ad alte prestazioni (HPC) exascale e IA con trilioni di parametri alla portata di tutti i ricercatori.

Inferenza su deep learning in tempo reale

L'IA risolve una vasta gamma di sfide aziendali, utilizzando una gamma ugualmente ampia di reti neurali. Un ottimo acceleratore di inferenza IA non deve garantire solo le massime prestazioni ma anche la versatilità per accelerare tali reti.

H100 espande la leadership di NVIDIA nell'inferenza sul mercato con diversi progressi che accelerano l'inferenza fino a 30 volte e offrono la latenza più bassa. I Tensor Core di quarta generazione accelerano tutte le precisioni, tra cui FP64, TF32, FP32, FP16, INT8 e ora FP8 per ridurre l'utilizzo della memoria e aumentare le prestazioni, mantenendo comunque l'accuratezza per i modelli LLM.

Prestazioni di inferenza IA fino a 30 volte superiori sui modelli più grandi

Megatron Chatbot Inference (530 miliardi di parametri)

Prestazioni previste soggette a modifica. Inferenza su chatbot basato su modello di parametri Megatron 530B per lunghezza sequenza di input = 128, lunghezza sequenza di output = 20 | Cluster A100: rete HDR IB | Cluster H100: sistema NVLink Switch, NDR IB

Prestazioni fino a 7 volte superiori per applicazioni HPC

Proiezione delle prestazioni soggetta a modifica. Throughput 3D FFT (4K^3) | Cluster A100: rete HDR IB | Cluster H100: NVLink Switch System, NDR IB | Sequenziamento del genoma (Smith-Waterman) 1 | A100 | 1 H100

Calcolo ad alte prestazioni exascale

La piattaforma per data center NVIDIA offre guadagni in termini di prestazioni oltre la legge di Moore. Le nuove e rivoluzionarie funzionalità IA di H100 aumentano ulteriormente la potenza dell'HPC+IA per accelerare i tempi delle scoperte per scienziati e ricercatori che lavorano per risolvere le sfide più importanti del mondo.

La H100 triplica le operazioni in virgola mobile al secondo (FLOPS) dei Tensor Core a doppia precisione, offrendo 60 teraFLOPS di calcolo a FP64 per HPC. Le applicazioni HPC con IA integrata possono inoltre sfruttare la precisione TF32 di H100 per ottenere un petaFLOP di throughput per operazioni di moltiplicazione a matrici a precisione singola, senza alcuna modifica del codice.

La H100 include anche nuove istruzioni DPX che offrono prestazioni 7 volte superiori rispetto alla A100 e accelerazioni 40 volte superiori rispetto alle CPU su algoritmi di programmazione dinamica come Smith-Waterman per l'allineamento delle sequenze del DNA e l'allineamento delle proteine per la previsione della struttura proteica.

Confronto delle istruzioni tra NVIDIA HGX™ H100 4-GPU e IceLake dual socket 32 core

Analisi dei dati accelerata

L'analisi dei dati spesso consuma la maggior parte del tempo nello sviluppo di applicazioni IA. Poiché i set di dati di grandi dimensioni sono disseminati su più server, le soluzioni scale-out con server commodity basati solo su CPU sono rallentati dalla carenza di prestazioni di calcolo scalabili.

I server accelerati con H100 offrono la potenza di calcolo, oltre a 3 terabyte al secondo (TB/s) di banda di memoria per GPU e scalabilità con NVLink e NVSwitch, per affrontare l'analisi dei dati con prestazioni elevate e scalabilità per supportare set di dati di grandi dimensioni. Insieme a NVIDIA Quantum-2 InfiniBand, software Magnum IO, Spark 3.0 accelerato da GPU e NVIDIA RAPIDS™, la piattaforma per data center NVIDIA è in grado di accelerare questi enormi carichi di lavoro con prestazioni ed efficienza più elevate.

Utilizzo di livello enterprise

I responsabili IT cercano di massimizzare l'utilizzo (sia di picco che medio) delle risorse di calcolo nel data center. Spesso utilizzano la riconfigurazione dinamica del calcolo per dimensionare correttamente le risorse per i carichi di lavoro in uso.

H100 con MIG consente ai gestori dell'infrastruttura di standardizzare l'infrastruttura accelerata da GPU, garantendo al contempo la flessibilità di eseguire il provisioning delle risorse della GPU con maggiore granularità, in modo da garantire agli sviluppatori la giusta capacità di calcolo accelerato e ottimizzare l'uso di tutte le risorse della GPU.

Calcolo riservato integrato

Le tradizionali soluzioni di computing riservato sono basate su CPU, troppo limitate per i carichi di lavoro ad alta intensità di calcolo come IA su larga scala. NVIDIA Confidential Computing è una funzionalità di sicurezza integrata nell'archietettura NVIDIA Hopper™ che ha reso H100 il primo acceleratore al mondo con queste capacità. Con NVIDIA Blackwell, l'opportunità di aumentare in modo esponenziale le prestazioni, proteggendo la riservatezza e l'integrità dei dati e delle applicazioni permette di sbloccare informazioni sui dati come mai prima d'ora. I clienti possono ora utilizzare un ambiente di esecuzione attendibile (Trusted Execution Environment, TEE) basato su hardware che protegge e isola l'intero carico di lavoro nel modo più performante.

Prestazioni eccezionali per IA e HPC su larga scala

La GPU Hopper Tensor Core alimenterà l'architettura CPU+GPU NVIDIA Grace Hopper, progettata appositamente per il computing accelerato su larga scala e per fornire prestazioni 10 volte superiori per applicazioni IA e HPC e con modelli di grandi dimensioni. La CPU NVIDIA Grace sfrutta la flessibilità dell'architettura Arm® per creare un'architettura di CPU e server progettata da zero per il computing accelerato. La GPU Hopper è abbinata alla CPU Grace con l'interconnessione ultra veloce chip-to-chip di NVIDIA, offrendo 900 GB/s di larghezza di banda, 7 volte più veloce rispetto a PCIe Gen5. Questo design innovativo offrirà una larghezza di banda aggregata dalla memoria di sistema alla GPU fino a 30 volte superiore rispetto ai server più veloci di oggi e prestazioni fino a 10 volte superiori per le applicazioni che eseguono terabyte di dati.

Specifiche del prodotto

Fattore di forma H100 SXM H100 PCIe H100 NVL1
FP64 34 teraFLOPS 26 teraFLOPS 68 teraFLOPs
FP64 Tensor Core 67 teraFLOPS 51 teraFLOPS 134 teraFLOPs
FP32 67 teraFLOPS 51 teraFLOPS 134 teraFLOPs
TF32 Tensor Core 989 teraFLOPS2 756 teraFLOPS2 1.979 teraFLOPs2
BFLOAT16 Tensor Core 1.979 teraFLOPS2 1.513 teraFLOPS2 3.958 teraFLOPs2
FP16 Tensor Core 1.979 teraFLOPS2 1.513 teraFLOPS2 3.958 teraFLOPs2
FP8 Tensor Core 3.958 teraFLOPS2 3.026 teraFLOPS2 7.916 teraFLOPs2
INT8 Tensor Core 3.958 TOPS2 3.026 TOPS2 7.916 TOPS2
Memoria della GPU 80GB 80GB 188GB
Banda di memoria GPU 3.35TB/s 2TB/s 7.8TB/s3
Decoders 7 NVDEC
7 JPEG
7 NVDEC
7 JPEG
14 NVDEC
14 JPEG
TDP (Thermal Design Power) Fino a 700 W (configurabile) 300-350 W (configurabile) 2 x 350-400 W (configurabili)
Multi-Instance GPU Fino a 7 MIG a 10 GB Fino a 14 MIGS a 12 GB ciascuno
Fattore di forma SXM PCIe
Raffreddamento ad aria a doppio slot
2 PCIe
con raffreddamento ad aria a doppio slot
Interconnessione NVLink: 900GB/s
PCIe Gen5: 128GB/s
NVLink: 600GB/s
PCIe Gen5: 128GB/s
NVLink: 600GB/s
PCIe Gen5: 128GB/s
Opzioni server NVIDIA HGX™ H100 Partner e NVIDIA-Certified Systems™ con 4 o 8 GPU NVIDIA DGX™ H100 con 8 GPU Sistemi partner e NVIDIA-Certified Systems con 1–8 GPU Sistemi partner e NVIDIA-Certified System con 2-4 coppie
NVIDIA AI Enterprise Componente aggiuntivo Incluso Incluso

Approfondisci l'architettura NVIDIA Hopper.