GPU NVIDIA H100 Tensor Core

Prestazioni, scalabilità e sicurezza straordinarie per ogni data center.

Introduzione
H100 NVL
NVIDIA AI Enterprise
Carichi di lavoro
Grace Hopper
Specifiche

Introduzione
H100 NVL
NVIDIA AI Enterprise
Carichi di lavoro
Grace Hopper
Specifiche

Un passo avanti enorme per il computing accelerato

Sfrutta prestazioni, scalabilità e sicurezza eccezionali per ogni carico di lavoro con la GPU NVIDIA H100 Tensor Core. Con il sistema NVIDIA NVLink™ Switch, è possibile collegare fino a 256 GPU H100 per accelerare i carichi di lavoro exascale. La GPU include anche un Transformer Engine dedicato per risolvere modelli di linguaggio da miliardi di parametri. Le innovazioni tecnologiche combinate della H100 possono accelerare modelli linguistici di grandi dimensioni (LLM) di 30 volte rispetto alla generazione precedente per fornire un'IA conversazionale leader di settore.

Leggi la scheda tecnica di NVIDIA H100 PCIe

Leggi la sintesi del prodotto NVIDIA H100 NVL

La superpotenza per l'inferenza con modelli linguistici di grandi dimensioni

Per LLM fino a 175 miliardi di parametri, la H100 NVL basata su PCIe con bridge NVLink utilizza Transformer Engine, NVLink e una memoria HBM3 da 188 GB per fornire prestazioni ottimali e facile scalabilità in qualsiasi data center, portando gli LLM nel mainstream. I server dotati di GPU H100 NVL aumentano le prestazioni del modello GPT-175B fino a 12 volte rispetto ai sistemi NVIDIA DGX™ A100 mantenendo bassa la latenza in ambienti di data center con vincoli energetici.

Pronto per l'IA aziendale?

L'adozione dell'IA da parte delle aziende è ormai diffusa e le organizzazioni hanno bisogno di un'infrastruttura completa e pronta che le aiuti ad accelerare il passaggio a questa nuova era.

La scheda H100 per i server mainstream include un abbonamento di cinque anni con supporto Enterprise, alla suite software NVIDIA AI Enterprise, che semplifica l'adozione dell'IA con le massime prestazioni. Questo garantisce alle aziende l'accesso ai framework e agli strumenti IA di cui hanno bisogno per creare flussi di lavoro accelerati da H100 come chatbot IA, generatori di consigli, IA visiva e non solo.

Attiva NVIDIA AI Enterprise

Accelera in modo sicuro i carichi da Enterprisea Exascale

Training IA fino a 4 volte superiore su GPT-3

Prestazioni previste soggette a modifica. Training del modello GPT-3 175B su cluster A100: rete HDR IB, cluster H100: rete NDR IB | Training di una variante del trasformatore MoE (MoE) con 395B parametri su set di dati di token 1T, Cluster A100: rete HDR IB, cluster H100: rete NDR IB con sistema NVLink Switch dove indicato.

Training IA trasformazionale

La H100 è dotata di Tensor Core di quarta generazione e del Transformer Engine con precisione FP8 che offre un training fino a 4 volte più veloce rispetto alla generazione precedente per i modelli GPT-3 (175B). La combinazione di NVLink di quarta generazione, che offre 900 gigabyte al secondo (GB/s) di interconnessione GPU-GPU; rete NDR Quantum-2 InfiniBand, che accelera la comunicazione di ogni GPU tra i nodi, PCIe Gen5 e il software NVIDIA Magnum IO™ offre scalabilità efficiente da sistemi per piccole imprese a cluster GPU unificati e di grandi dimensioni.

La distribuzione di GPU H100 su scala per data center offre prestazioni straordinarie e porta la nuova generazione di calcolo ad alte prestazioni (HPC) exascale e IA con trilioni di parametri alla portata di tutti i ricercatori.

Scopri NVIDIA AI e NVIDIA H100 su NVIDIA LaunchPad

Inferenza su deep learning in tempo reale

L'IA risolve una vasta gamma di sfide aziendali, utilizzando una gamma ugualmente ampia di reti neurali. Un ottimo acceleratore di inferenza IA non deve garantire solo le massime prestazioni ma anche la versatilità per accelerare tali reti.

H100 espande la leadership di NVIDIA nell'inferenza sul mercato con diversi progressi che accelerano l'inferenza fino a 30 volte e offrono la latenza più bassa. I Tensor Core di quarta generazione accelerano tutte le precisioni, tra cui FP64, TF32, FP32, FP16, INT8 e ora FP8 per ridurre l'utilizzo della memoria e aumentare le prestazioni, mantenendo comunque l'accuratezza per i modelli LLM.

Prestazioni di inferenza IA fino a 30 volte superiori sui modelli più grandi

Megatron Chatbot Inference (530 miliardi di parametri)

Prestazioni previste soggette a modifica. Inferenza su chatbot basato su modello di parametri Megatron 530B per lunghezza sequenza di input = 128, lunghezza sequenza di output = 20 | Cluster A100: rete HDR IB | Cluster H100: sistema NVLink Switch, NDR IB

Prestazioni fino a 7 volte superiori per applicazioni HPC

Calcolo ad alte prestazioni exascale

La piattaforma per data center NVIDIA offre guadagni in termini di prestazioni oltre la legge di Moore. Le nuove e rivoluzionarie funzionalità IA di H100 aumentano ulteriormente la potenza dell'HPC+IA per accelerare i tempi delle scoperte per scienziati e ricercatori che lavorano per risolvere le sfide più importanti del mondo.

La H100 triplica le operazioni in virgola mobile al secondo (FLOPS) dei Tensor Core a doppia precisione, offrendo 60 teraFLOPS di calcolo a FP64 per HPC. Le applicazioni HPC con IA integrata possono inoltre sfruttare la precisione TF32 di H100 per ottenere un petaFLOP di throughput per operazioni di moltiplicazione a matrici a precisione singola, senza alcuna modifica del codice.

La H100 include anche nuove istruzioni DPX che offrono prestazioni 7 volte superiori rispetto alla A100 e accelerazioni 40 volte superiori rispetto alle CPU su algoritmi di programmazione dinamica come Smith-Waterman per l'allineamento delle sequenze del DNA e l'allineamento delle proteine per la previsione della struttura proteica.

Scopri le prestazioni più recenti della GPU su applicazioni HPC

Confronto delle istruzioni tra NVIDIA HGX™ H100 4-GPU e IceLake dual socket 32 core

Analisi dei dati accelerata

L'analisi dei dati spesso consuma la maggior parte del tempo nello sviluppo di applicazioni IA. Poiché i set di dati di grandi dimensioni sono disseminati su più server, le soluzioni scale-out con server commodity basati solo su CPU sono rallentati dalla carenza di prestazioni di calcolo scalabili.

I server accelerati con H100 offrono la potenza di calcolo, oltre a 3 terabyte al secondo (TB/s) di banda di memoria per GPU e scalabilità con NVLink e NVSwitch, per affrontare l'analisi dei dati con prestazioni elevate e scalabilità per supportare set di dati di grandi dimensioni. Insieme a NVIDIA Quantum-2 InfiniBand, software Magnum IO, Spark 3.0 accelerato da GPU e NVIDIA RAPIDS™, la piattaforma per data center NVIDIA è in grado di accelerare questi enormi carichi di lavoro con prestazioni ed efficienza più elevate.

Utilizzo di livello enterprise

I responsabili IT cercano di massimizzare l'utilizzo (sia di picco che medio) delle risorse di calcolo nel data center. Spesso utilizzano la riconfigurazione dinamica del calcolo per dimensionare correttamente le risorse per i carichi di lavoro in uso.

H100 con MIG consente ai gestori dell'infrastruttura di standardizzare l'infrastruttura accelerata da GPU, garantendo al contempo la flessibilità di eseguire il provisioning delle risorse della GPU con maggiore granularità, in modo da garantire agli sviluppatori la giusta capacità di calcolo accelerato e ottimizzare l'uso di tutte le risorse della GPU.

Scopri di più su MIG

Calcolo riservato integrato

Le tradizionali soluzioni di computing riservato sono basate su CPU, troppo limitate per i carichi di lavoro ad alta intensità di calcolo come IA su larga scala. NVIDIA Confidential Computing è una funzionalità di sicurezza integrata nell'archietettura NVIDIA Hopper™ che ha reso H100 il primo acceleratore al mondo con queste capacità. Con NVIDIA Blackwell, l'opportunità di aumentare in modo esponenziale le prestazioni, proteggendo la riservatezza e l'integrità dei dati e delle applicazioni permette di sbloccare informazioni sui dati come mai prima d'ora. I clienti possono ora utilizzare un ambiente di esecuzione attendibile (Trusted Execution Environment, TEE) basato su hardware che protegge e isola l'intero carico di lavoro nel modo più performante.

Scopri di più su NVIDIA Confidential Computing

Prestazioni eccezionali per IA e HPC su larga scala

La GPU Hopper Tensor Core alimenterà l'architettura CPU+GPU NVIDIA Grace Hopper, progettata appositamente per il computing accelerato su larga scala e per fornire prestazioni 10 volte superiori per applicazioni IA e HPC e con modelli di grandi dimensioni. La CPU NVIDIA Grace sfrutta la flessibilità dell'architettura Arm^® per creare un'architettura di CPU e server progettata da zero per il computing accelerato. La GPU Hopper è abbinata alla CPU Grace con l'interconnessione ultra veloce chip-to-chip di NVIDIA, offrendo 900 GB/s di larghezza di banda, 7 volte più veloce rispetto a PCIe Gen5. Questo design innovativo offrirà una larghezza di banda aggregata dalla memoria di sistema alla GPU fino a 30 volte superiore rispetto ai server più veloci di oggi e prestazioni fino a 10 volte superiori per le applicazioni che eseguono terabyte di dati.

Scopri di più su NVIDIA Grace

Specifiche del prodotto

Fattore di forma	H100 SXM	H100 PCIe	H100 NVL¹
FP64	34 teraFLOPS	26 teraFLOPS	68 teraFLOPs
FP64 Tensor Core	67 teraFLOPS	51 teraFLOPS	134 teraFLOPs
FP32	67 teraFLOPS	51 teraFLOPS	134 teraFLOPs
TF32 Tensor Core	989 teraFLOPS²	756 teraFLOPS²	1.979 teraFLOPs²
BFLOAT16 Tensor Core	1.979 teraFLOPS²	1.513 teraFLOPS²	3.958 teraFLOPs²
FP16 Tensor Core	1.979 teraFLOPS²	1.513 teraFLOPS²	3.958 teraFLOPs²
FP8 Tensor Core	3.958 teraFLOPS²	3.026 teraFLOPS²	7.916 teraFLOPs²
INT8 Tensor Core	3.958 TOPS²	3.026 TOPS²	7.916 TOPS²
Memoria della GPU	80GB	80GB	188GB
Banda di memoria GPU	3.35TB/s	2TB/s	7.8TB/s³
Decoders	7 NVDEC 7 JPEG	7 NVDEC 7 JPEG	14 NVDEC 14 JPEG
TDP (Thermal Design Power)	Fino a 700 W (configurabile)	300-350 W (configurabile)	2 x 350-400 W (configurabili)
Multi-Instance GPU	Fino a 7 MIG a 10 GB		Fino a 14 MIGS a 12 GB ciascuno
Fattore di forma	SXM	PCIe Raffreddamento ad aria a doppio slot	2 PCIe con raffreddamento ad aria a doppio slot
Interconnessione	NVLink: 900GB/s PCIe Gen5: 128GB/s	NVLink: 600GB/s PCIe Gen5: 128GB/s	NVLink: 600GB/s PCIe Gen5: 128GB/s
Opzioni server	NVIDIA HGX™ H100 Partner e NVIDIA-Certified Systems™ con 4 o 8 GPU NVIDIA DGX™ H100 con 8 GPU	Sistemi partner e NVIDIA-Certified Systems con 1–8 GPU	Sistemi partner e NVIDIA-Certified System con 2-4 coppie
NVIDIA AI Enterprise	Componente aggiuntivo	Incluso	Incluso

1. Specifiche preliminari. Potrebbe essere soggetto a modifica. Specifiche mostrate per 2 schede H100 NVL PCIe abbinate a NVLink Bridge.
2. Con densità.
3. Banda HBM aggregata.

Approfondisci l'architettura NVIDIA Hopper.

Leggi il white paper