NVIDIA Multi-Instance GPU

Sette istanze indipendenti su una singola GPU

Multi-Instance GPU (MIG) espande le prestazioni e aumenta il valore delle GPU NVIDIA H100, A100 e A30 Tensor Core. La tecnologia MIG è in grado di partizionare la GPU in un numero massimo di sette istanze, ciascuna completamente isolata con la memoria a banda elevata, cache e core di elaborazione distinti. Gli amministratori possono ora supportare qualsiasi  carico di lavoro, dal più piccolo al più grande, con qualità del servizio (QoS) garantita ed estendendo la portata delle risorse di computing accelerato a tutti gli utenti.  

Panoramica dei benefici

Espandi l'accesso alla GPU ad altri utenti

Espandi l'accesso alla GPU

Con MIG, si ottengono risorse GPU fino a 7 volte superiori su una singola GPU. MIG offre ai ricercatori e agli sviluppatori più risorse e flessibilità che mai.

Ottimizza l'utilizzo della GPU

Ottimizza l'utilizzo della GPU

MIG offre la flessibilità di scegliere diverse dimensioni per l'istanza, il che consente un provisioning dimensionato dell'istanza GPU in base alle esigenze di ogni carico di lavoro, per un utilizzo razionalizzato, massimizzando l'investimento nel data center.

Esegui carichi di lavoro misti simultanei

Esegui carichi di lavoro simultanei

MIG consente l'esecuzione di carichi di lavoro di inferenza, training e calcolo ad alte prestazioni (HPC) simultanei su una singola GPU con latenza e throughput calibrati secondo le necessità di ciascun carico. A differenza del time slicing, ogni carico di lavoro viene eseguito in parallelo, garantendo alte prestazioni.

Come funziona la tecnologia

Senza MIG, l'esecuzione di più processi sulla stessa GPU, come diverse richieste di inferenza IA, competono per l'uso delle stesse risorse. Un processo che consuma molta banda di memoria lascia carenza di banda per gli altri, determinando problemi di latenza per diversi processi. Con MIG, i processi vengono eseguiti simultaneamente su diverse istanza, ognuna con risorse dedicate per elaborazione, memoria e banda, generando prestazioni prevedibili con QoS e utilizzo massimo della GPU.

Multi-Instance GPU

Esegui il provisioning e configura le istanze in base alle esigenze

Una GPU può essere partizionata in istanze MIG di dimensioni diverse. Ad esempio, con una NVIDIA A100 40 GB, un amministratore può creare due istanze con 20 gigabyte (GB) di memoria ciascuna o tre istanze con 10 GB ciascuna o sette istanze con 5 GB ciascuna. Oppure un mix delle due opzioni. 

Le istanze MIG possono anche essere riconfigurate dinamicamente, consentendo agli amministratori di spostare le risorse della GPU in risposta alle mutevoli esigenze di utenti e aziende. Ad esempio, sette istanze MIG possono essere utilizzate durante il giorno per l'inferenza a bassa velocità e riconfigurate in un'istanza MIG di grandi dimensioni di notte per il training su deep learning.

Esegui carichi di lavoro in parallelo e in modo sicuro

Con un set dedicato di risorse hardware per calcolo, memoria e cache, ogni istanza MIG offre un isolamento dei guasti e QoS garantita. Ciò significa che un errore in un'applicazione in esecuzione su un'istanza non influisce sulle applicazioni in esecuzione su altre istanze.

Inoltre, istanze diverse possono eseguire diversi tipi di carichi di lavoro: sviluppo di modelli interattivi, training su deep learning, inferenza con IA o applicazioni HPC. Poiché le istanze vengono eseguite in parallelo, anche i carichi di lavoro procedono in parallelo, ma separati e isolati, sulla stessa GPU fisica.

MIG in NVIDIA H100

Basata sull'architettura NVIDIA Hopper™, la H100 migliora la tecnologia MIG supportando configurazioni multi-tenant e multiutente in ambienti virtualizzati su un massimo di sette istanze GPU, isolando in modo sicuro ciascuna istanza con computing riservato a livello di hardware e hypervisor. I decoder video dedicati per ogni istanza MIG offrono analisi video intelligenti sicure e ad alta produttività (IVA) su infrastruttura condivisa. Con la profilazione MIG simultanea di Hopper, gli amministratori possono monitorare che l'accelerazione con GPU sia correttamente dimensionata e allocare le risorse a più utenti. 

Per i ricercatori con carichi di lavoro più piccoli, invece di noleggiare un'istanza cloud completa, è possibile utilizzare MIG per isolare in modo sicuro una parte della GPU, garantendo al contempo che i dati siano al sicuro a riposo, in transito e in uso. Questa maggiore flessibilità permette ai fornitori di servizi cloud di valutare i costi e gestire più adeguatamente le opportunità per soddisfare esigenze di clienti più piccoli.

Guarda MIG in azione

GPU NVIDIA A100 Tensor Core

Eseguire più carichi di lavoro su una singola GPU A100

In questa demo vengono eseguiti carichi di lavoro HPC e IA contemporaneamente sulla stessa GPU A100.

Multi-Instance GPU su GPU NVIDIA A100 Tensor Core

Aumentare prestazioni e utilizzo con Multi-Instance GPU

Questa demo mostra le prestazioni in inferenza su una singola istanza di MIG con conseguente scalabilità lineare sull'intera A100.

Progettato per IT e DevOps

MIG consente il provisioning granulare della GPU ai team IT e DevOps. Ogni istanza MIG si comporta come una GPU standalone per le applicazioni, quindi non c'è alcuna modifica alla piattaforma CUDA®. MIG può essere utilizzata in tutti i principali ambienti di calcolo aziendali.

Massima flessibilità nel data center

Una GPU NVIDIA A100 può essere partizionata in istanze MIG di dimensioni diverse. Ad esempio, un amministratore può creare due istanze con 20 gigabyte (GB) di memoria ciascuna o tre istanze con 10 GB o sette istanze con 5 GB. Oppure un mix diverso. Questo aiuta gli amministratori di sistema a fornire GPU di dimensioni corrette agli utenti per diversi tipi di carichi di lavoro.

Le istanze MIG possono anche essere riconfigurate dinamicamente, consentendo agli amministratori di spostare le risorse della GPU in risposta alle mutevoli esigenze di utenti e aziende. Ad esempio, sette istanze MIG possono essere utilizzate durante il giorno per l'inferenza a bassa velocità e riconfigurate in un'istanza MIG di grandi dimensioni di notte per il training su deep learning.

Offrire una qualità del servizio eccezionale

Ogni istanza MIG dispone di un set dedicato di risorse hardware per il calcolo, la memoria e la cache, che fornisce qualità del servizio (QoS) garantita e isolamento degli errori per il carico di lavoro. Ciò significa che un errore in un'applicazione in esecuzione su un'istanza non influisce sulle applicazioni in esecuzione su altre istanze. Inoltre, istanze diverse possono eseguire diversi tipi di carichi di lavoro: sviluppo di modelli interattivi, training su deep learning, inferenza con IA o applicazioni HPC. Poiché le istanze vengono eseguite in parallelo, anche i carichi di lavoro procedono in parallelo, ma separati e isolati, sulla stessa GPU A100 fisica.

MIG è ideale per carichi di lavoro come lo sviluppo di modelli IA e l'inferenza a bassa latenza. Questi carichi di lavoro possono sfruttare appieno le funzionalità di A100 e rientrare nella memoria allocata di ogni istanza.

Specifiche MIG

H100 A100
Confidential Computing -
Tipi di istanze 7 x 10 GB
4 x 20 GbE
2 x 40 GB (più capacità di calcolo)
1 x 80 GB
7 x 10 GB
3 x 20 GB
2 x 40 GB
1 x 80 GB
Profilazione e monitoraggio delle GPU Simultanei su tutte le istanze Una sola istanza alla volta
Tenant sicuri 7 x 1 x
Decoder multimediali NVJPEG dedicato e NVDEC per istanza Opzioni limitate

 Specifiche preliminari, soggette a modifica

Approfondisci l'architettura NVIDIA Hopper

Approfondisci l'architettura NVIDIA Ampere