GPU NVIDIA H100 Tensor Core

Prestazioni, scalabilità e sicurezza senza precedenti per ogni data center.

Un passo avanti enorme per il computing accelerato.

Sfrutta prestazioni, scalabilità e sicurezza senza precedenti per ogni carico di lavoro con la GPU NVIDIA H100 Tensor Core. Con NVIDIA® NVLink® Switch System, è possibile collegare fino a 256 H100 per accelerare i carichi di lavoro exascale, insieme a un Transformer Engine dedicato per risolvere modelli di linguaggio da trilioni di parametri. Le innovazioni tecnologiche combinate di H100 possono accelerare modelli linguistici di grandi dimensioni di 30 volte rispetto alla generazione precedente per fornire un'IA conversazionale leader di settore.

Pronto per l'IA aziendale?

L'adozione dell'IA da parte delle aziende è ormai diffusa e le organizzazioni hanno bisogno di un'infrastruttura completa e pronta che le aiuti ad accelerare il passaggio a questa nuova era.

La scheda H100 per i server mainstream include un abbonamento di cinque anni con supporto Enterprise, alla suite software NVIDIA AI Enterprise, che semplifica l'adozione dell'IA con le massime prestazioni. Questo garantisce alle aziende l'accesso ai framework e agli strumenti IA di cui hanno bisogno per creare flussi di lavoro accelerati da H100 come chatbot IA, generatori di consigli, IA visiva e non solo.

Accelera in modo sicuro i carichi da enterprise a exascale

Training IA fino a 9 volte superiore sui modelli più grandi

Mixture of Experts (395 miliardi di parametri)

Training IA trasformazionale

Training IA trasformazionale.

La H100 è dotata di Tensor Core di quarta generazione e del Transformer Engine con precisione FP8 che offre un training fino a 9 volte più veloce rispetto alla generazione precedente per i modelli MoE (Mix-of-Experts). La combinazione di NVlink di quarta generazione, che offre 900 gigabyte al secondo (GB/s) di interconnessione GPU-GPU, NVSwitch Switch System, che accelera la comunicazione da ogni GPU su più nodi, PCIe Gen5 e il software NVIDIA Magnum IO™ offre scalabilità efficiente da cluster di piccole imprese a cluster GPU massicci e unificati.

La distribuzione di GPU H100 su scala per data center offre prestazioni straordinarie e porta la nuova generazione di calcolo ad alte prestazioni (HPC) exascale e IA con trilioni di parametri alla portata di tutti i ricercatori.

Inferenza su deep learning in tempo reale.

L'IA risolve una vasta gamma di sfide aziendali, utilizzando una gamma ugualmente ampia di reti neurali. Un ottimo acceleratore di inferenza IA non deve garantire solo le massime prestazioni ma anche la versatilità per accelerare tali reti.

H100 espande ulteriormente la leadership di NVIDIA nell'inferenza sul mercato con diversi progressi che accelerano l'inferenza fino a 30 volte e offrono la latenza più bassa. I Tensor Core di quarta generazione accelerano tutte le precisioni, tra cui FP64, TF32, FP32, FP16 e INT8, mentre il Transformer Engine utilizza FP8 e FP16 insieme per ridurre l'utilizzo della memoria e aumentare le prestazioni, mantenendo comunque l'accuratezza per i modelli linguistici di grandi dimensioni.

Prestazioni di inferenza IA fino a 30 volte superiori sui modelli più grandi.

Megatron Chatbot Inference (530 miliardi di parametri)

Inferenza su deep learning in tempo reale

Prestazioni fino a 7 volte superiori per applicazioni HPC.

Applicazioni HPC con IA integrata

Calcolo ad alte prestazioni exascale.

La piattaforma per data center NVIDIA offre guadagni in termini di prestazioni oltre la legge di Moore. Le nuove e rivoluzionarie funzionalità IA di H100 aumentano ulteriormente la potenza dell'HPC+IA per accelerare i tempi delle scoperte per scienziati e ricercatori che lavorano per risolvere le sfide più importanti del mondo.

La H100 triplica le operazioni in virgola mobile al secondo (FLOPS) dei Tensor Core a doppia precisione, offrendo 60 teraFLOPS di calcolo a FP64 per HPC. Le applicazioni HPC con IA integrata possono sfruttare la precisione TF32 di H100 per ottenere un petaFLOP di throughput per operazioni di moltiplicazione a matrici a precisione singola, senza alcuna modifica del codice.

La H100 include anche nuove istruzioni DPX che offrono prestazioni 7 volte superiori rispetto alle GPU NVIDIA V100 Tensor Core e accelerazioni 40 volte superiori rispetto ai server tradizionali basati su sola CPU dual-socket su algoritmi di programmazione dinamica come Smith-Waterman per l'allineamento delle sequenze del DNA.

Analisi dei dati accelerata.

L'analisi dei dati spesso consuma la maggior parte del tempo nello sviluppo di applicazioni IA. Poiché i set di dati di grandi dimensioni sono disseminati su più server, le soluzioni scale-out con server commodity basati solo su CPU sono rallentati dalla carenza di prestazioni di calcolo scalabili.

I server accelerati con H100 offrono la potenza di calcolo, oltre a 3 terabyte al secondo (TB/s) di banda di memoria per GPU e scalabilità con NVLink e NVSwitch, per affrontare l'analisi dei dati con prestazioni elevate e scalabilità per supportare set di dati di grandi dimensioni. Insieme a NVIDIA Quantum-2 InfiniBand, il software Magnum IO, Spark 3.0 accelerato da GPU e NVIDIA RAPIDS, la piattaforma per data center NVIDIA è in grado di accelerare questi enormi carichi di lavoro a livelli mai visti prima in termini di prestazioni ed efficienza.

Server accelerati con H100
NVIDIA Multi-Instance GPU

Pronta per l’uso aziendale

I responsabili IT cercano di massimizzare l'utilizzo (sia di picco che medio) delle risorse di calcolo nel data center. Spesso utilizzano la riconfigurazione dinamica del calcolo per dimensionare correttamente le risorse per i carichi di lavoro in uso.

Multi-Instance GPU (MIG) di seconda generazione in H100 massimizza l'utilizzo di ciascuna GPU partizionandola in modo sicuro in ben sette istanze separate. Con il supporto per il computing riservato, H100 consente un utilizzo sicuro end-to-end e multi-tenant, ideale per gli ambienti CSP.

H100 con MIG consente ai gestori dell'infrastruttura di standardizzare l'infrastruttura accelerata da GPU, garantendo al contempo la flessibilità di eseguire il provisioning delle risorse della GPU con maggiore granularità, in modo da garantire agli sviluppatori la giusta capacità di calcolo accelerato e ottimizzare l'uso di tutte le risorse della GPU.

Calcolo riservato integrato.

Le attuali soluzioni di computing riservato sono basate su CPU, troppo limitate per i carichi di lavoro ad alta intensità di calcolo come IA e HPC. NVIDIA Confidential Computing è una funzionalità di sicurezza integrata dell'architettura NVIDIA Hopper™ che rende la H100 il primo acceleratore al mondo con funzionalità di elaborazione riservate. Gli utenti possono tutelare la riservatezza e l'integrità dei dati e delle applicazioni durante l'elaborazione, ottenendo al contempo l'accelerazione senza pari delle GPU H100. La soluzione crea un ambiente di esecuzione affidabile (TEE) basato su hardware che protegge e isola l'intero carico di lavoro in esecuzione su una singola GPU H100, più GPU H100 all'interno di un nodo o singole istanze MIG. Le applicazioni accelerate da GPU possono essere eseguite invariate in ambienti TEE e non devono essere partizionate. Gli utenti possono combinare la potenza del software NVIDIA per IA e HPC con la sicurezza di un hardware comprovato offerto da NVIDIA Confidential Computing.

Soluzioni di computing riservato NVIDIA
NVIDIA H100CX Converged Accelerator

The convergence of GPU and SmartNIC.

NVIDIA H100 CNX combines the power of H100 with the advanced networking capabilities of the NVIDIA ConnectX®-7 smart network interface card (SmartNIC) in a single, unique platform. This convergence delivers unparalleled performance for GPU-powered input/output (IO)-intensive workloads, such as distributed AI training in the enterprise data center and 5G processing at the edge.

NVIDIA Confidential Computing Solutions

Prestazioni senza pari per IA e HPC su larga scala.

La GPU Hopper Tensor Core alimenterà l'architettura CPU+GPU NVIDIA Grace Hopper, progettata appositamente per il computing accelerato su larga scala e per fornire prestazioni 10 volte superiori per applicazioni IA e HPC e con modelli di grandi dimensioni. La CPU NVIDIA Grace sfrutta la flessibilità dell'architettura Arm® per creare un'architettura di CPU e server progettata da zero per il computing accelerato. La GPU Hopper è abbinata alla CPU Grace con l'interconnessione ultra veloce chip-to-chip di NVIDIA, offrendo 900 GB/s di larghezza di banda, 7 volte più veloce rispetto a PCIe Gen5. Questo design innovativo offrirà una larghezza di banda aggregata dalla memoria di sistema alla GPU fino a 30 volte superiore rispetto ai server più veloci di oggi e prestazioni fino a 10 volte superiori per le applicazioni che eseguono terabyte di dati.

Vedi le specifiche del prodotto

Fattore di forma H100 SXM H100 PCIe
FP64 34 teraFLOPS 26 teraFLOPS
FP64 Tensor Core 67 teraFLOPS 51 teraFLOPS
FP32 67 teraFLOPS 51 teraFLOPS
TF32 Tensor Core 989 teraFLOPS* 756 teraFLOPS*
BFLOAT16 Tensor Core 1979 teraFLOPS* 1.513 teraFLOPS*
FP16 Tensor Core 1.979 teraFLOPS* 1.513 teraFLOPS*
FP8 Tensor Core 3.958 teraFLOPS* 3.026 teraFLOPS*
INT8 Tensor Core 3.958 TOPS* 3.026 TOPS*
Memoria della GPU 80 GB 80 GB
Banda di memoria GPU 3,35 Tb/s 2 TB/s
Decoder 7 NVDEC
7 JPEG
7 NVDEC
7 JPEG
TDP (Thermal Design Power) Fino a 700 W (configurabile) 300-350 W (configurabile)
Multi-Instance GPU Fino a 7 MIG a 10 GB
Fattore di forma SXM PCIe
Raffreddamento ad aria a doppio slot
Interconnessione NVLink: 900GB/s PCIe Gen5: 128 GB/s NVLINK: 600 GB/s PCIe Gen5: 128 GB/s
Opzioni server NVIDIA HGX H100 Partner e NVIDIA-Certified Systems con 4 o 8 GPU NVIDIA DGX H100 con 8 GPU Sistemi partner e NVIDIA-Certified Systems con 1–8 GPU
NVIDIA AI Enterprise Componente aggiuntivo Incluso

Approfondisci l'architettura NVIDIA Hopper.