NVIDIA Multi-Instance GPU

Sette istanze indipendenti su una singola GPU.

Multi-Instance GPU (MIG) aumenta le prestazioni e il valore delle GPU NVIDIA Blackwell e Hopper™. La tecnologia MIG è in grado di partizionare la GPU in un numero massimo di sette istanze, ciascuna completamente isolata con la memoria a banda elevata, cache e core di elaborazione distinti. Gli amministratori possono ora supportare qualsiasi carico di lavoro, dal più piccolo al più grande, qualità del servizio (QoS) garantita per ogni processo estendendo la portata delle risorse di elaborazione accelerate a tutti gli utenti.

Panoramica dei benefici

Espandi l'accesso alla GPU

Con MIG, si ottengono risorse GPU fino a 7 volte superiori su una singola GPU. MIG offre ai ricercatori e agli sviluppatori più risorse e flessibilità che mai.

Ottimizza l'utilizzo della GPU

MIG offre la flessibilità di scegliere diverse dimensioni per l'istanza, il che consente un provisioning dimensionato dell'istanza GPU in base alle esigenze di ogni carico di lavoro, per un utilizzo razionalizzato, massimizzando l'investimento nel data center.

Esegui carichi di lavoro simultanei

MIG consente l'esecuzione di carichi di lavoro di inferenza, training e calcolo ad alte prestazioni (HPC) simultanei su una singola GPU con latenza e throughput calibrati secondo le necessità di ciascun carico. A differenza del time slicing, ogni carico di lavoro viene eseguito in parallelo, garantendo prestazioni più elevate.

Come funziona la tecnologia

Senza MIG, l'esecuzione di più processi sulla stessa GPU, come diverse richieste di inferenza IA, competono per l'uso delle stesse risorse. Un processo che consuma molta banda di memoria lascia carenza di banda per gli altri, determinando problemi di latenza per diversi processi. Con MIG, i processi vengono eseguiti simultaneamente su diverse istanza, ognuna con risorse dedicate per elaborazione, memoria e banda, generando prestazioni prevedibili con QoS e utilizzo massimo della GPU.

Esegui il provisioning e configura le istanze in base alle esigenze

Una GPU può essere partizionata in istanze MIG di dimensioni diverse. Ad esempio, con una NVIDIA H100, un amministratore può creare due istanze con 40 GB di memoria ciascuna o tre istanze con 20 GB ciascuna o ancora sette istanze con 10 GB ciascuna o una combinazione di queste.

Le istanze MIG possono anche essere riconfigurate dinamicamente, consentendo agli amministratori di spostare le risorse della GPU in risposta alle mutevoli esigenze di utenti e aziende. Ad esempio, sette istanze MIG possono essere utilizzate durante il giorno per l'inferenza a bassa velocità e riconfigurate in un'istanza MIG di grandi dimensioni di notte per il training su deep learning.

Esegui carichi di lavoro in parallelo e in modo sicuro

Con un set dedicato di risorse hardware per calcolo, la memoria e la cache, ogni istanza MIG offre isolamento dei guasti e QoS garantita. Ciò significa che un errore in un'applicazione in esecuzione su un'istanza non influisce sulle applicazioni in esecuzione su altre istanze.

Inoltre, istanze diverse possono eseguire diversi tipi di carichi di lavoro: sviluppo di modelli interattivi, training su deep learning, inferenza con IA o applicazioni HPC. Poiché le istanze vengono eseguite in parallelo, anche i carichi di lavoro procedono in parallelo, ma separati e isolati, sulla stessa GPU fisica.

MIG nelle GPU Blackwell

L'architettura Hopper migliora ulteriormente MIG supportando configurazioni multi-tenant e multiutente in ambienti virtualizzati su un massimo di sette istanze GPU, isolando in modo sicuro ciascuna istanza con computing riservato a livello di hardware e hypervisor. I decoder video dedicati per ogni istanza MIG offrono analisi video intelligenti sicure e ad alta produttività (IVA) su infrastruttura condivisa. Con la profilazione MIG simultanea di Hopper, gli amministratori possono monitorare che l'accelerazione con GPU sia correttamente dimensionata e allocare le risorse a più utenti.

Per i ricercatori con carichi di lavoro più piccoli, invece di noleggiare un'istanza cloud completa, è possibile utilizzare MIG per isolare in modo sicuro una parte della GPU, garantendo al contempo che i dati siano al sicuro a riposo, in transito e in uso. Questa maggiore flessibilità permette ai fornitori di servizi cloud di stabilire i prezzi e gestire le opportunità per i clienti più piccoli.

Guarda MIG in azione

Eseguire più carichi di lavoro su una singola GPU A100

In questa demo vengono eseguiti carichi di lavoro HPC e IA contemporaneamente sulla stessa GPU A100.

Aumentare prestazioni e utilizzo con Multi-Instance GPU

Questa demo mostra le prestazioni in inferenza su una singola istanza di MIG con conseguente scalabilità lineare sull'intera A100.

Progettato per IT e DevOps

MIG consente il provisioning granulare della GPU ai team IT e DevOps. Ogni istanza MIG si comporta come una GPU standalone per le applicazioni, quindi non c'è alcuna modifica alla piattaforma CUDA®. MIG può essere utilizzata in tutti i principali ambienti di calcolo aziendali.

Specifiche MIG

  GB200/B200/B100 H100
Confidential computing
Tipi di istanze Up to 7x 23GB
Up to 4x 45GB
Up to 2x 95GB
Up to 1x 192GB
7x 10GB
4x 20GB
2x 40GB
1x 80GB
Profilazione e monitoraggio delle GPU Simultanei su tutte le istanze Simultanei su tutte le istanze
Tenant sicuri 7x 7x
Decoder multimediali NVJPEG dedicati e NVDEC per istanza NVJPEG dedicati e NVDEC per istanza

Specifiche preliminari, soggette a modifica

Scopri di più su NVIDIA Blackwell.