NVIDIA Multi-Instance GPU

Sette istanze indipendenti su una singola GPU

Multi-Instance GPU (MIG) aumenta le prestazioni e il valore di ciascuna GPU NVIDIA A100 Tensor Core. La tecnologia MIG è in grado di partizionare la GPU A100 in un numero massimo di sette istanze, ciascuna completamente isolata con la memoria a banda elevata, cache e core di elaborazione distinti. Gli amministratori possono ora supportare qualsiasi carico di lavoro, dal più piccolo al più grande, offrendo una GPU correttamente dimensionata con qualità del servizio (QoS) garantita per ogni processo, ottimizzando l'utilizzo ed estendendo la portata delle risorse di elaborazione accelerate a tutti gli utenti.

Panoramica dei benefici

Expand GPU Access to More Users

Espandere l'accesso alla GPU ad altri utenti

Con MIG, si ottengono risorse GPU fino a 7 volte superiori su una singola GPU A100. MIG offre ai ricercatori e agli sviluppatori più risorse e flessibilità che mai.

Optimize GPU Utilization

Ottimizzazione dell'utilizzo della GPU

MIG offre la flessibilità di scegliere diverse dimensioni per l'istanza, il che consente un provisioning dimensionato della GPU in base alle esigenze di ogni carico di lavoro, per un utilizzo razionalizzato, massimizzando l'investimento nel data center.

Run Simultaneous Mixed Workloads

Eseguire carichi di lavoro misti simultanei

MIG consente l'esecuzione di carichi di lavoro di inferenza, training e calcolo ad alte prestazioni (HPC) simultanei su una singola GPU con latenza e throughput calibrati secondo le necessità di ciascun carico.

Come funziona la tecnologia

Senza MIG, l'esecuzione di più processi sulla stessa GPU, come diverse richieste di inferenza IA, competono per l'uso delle stesse risorse, come la banda di memoria. Un processo che consuma molta banda di memoria lascia carenza di banda per gli altri, determinando problemi di latenza per diversi processi. Con MIG, i processi vengono eseguiti simultaneamente su diverse istanza, ognuna con risorse dedicate per elaborazione, memoria e banda, generando prestazioni prevedibili con qualità del servizio e utilizzo massimo della GPU.

Vantaggi significativi in prestazioni e utilizzo con Multi-Instance GPU

Massima flessibilità nel data center

Una GPU NVIDIA A100 può essere partizionata in istanze MIG di dimensioni diverse. Ad esempio, un amministratore può creare due istanze con 20 gigabyte (GB) di memoria ciascuna o tre istanze con 10 GB o sette istanze con 5 GB. Oppure un mix diverso. Questo aiuta gli amministratori di sistema a fornire GPU di dimensioni corrette agli utenti per diversi tipi di carichi di lavoro.

Le istanze MIG possono anche essere riconfigurate dinamicamente, consentendo agli amministratori di spostare le risorse della GPU in risposta alle mutevoli esigenze di utenti e aziende. Ad esempio, sette istanze MIG possono essere utilizzate durante il giorno per l'inferenza a bassa velocità e riconfigurate in un'istanza MIG di grandi dimensioni di notte per il training su deep learning.

Offrire una qualità del servizio eccezionale

Ogni istanza MIG dispone di un set dedicato di risorse hardware per il calcolo, la memoria e la cache, che fornisce qualità del servizio (QoS) efficace e isolamento degli errori per il carico di lavoro. Ciò significa che un errore in un'applicazione in esecuzione su un'istanza non influisce sulle applicazioni in esecuzione su altre istanze. Inoltre, istanze diverse possono eseguire diversi tipi di carichi di lavoro: sviluppo di modelli interattivi, training su deep learning, inferenza con IA o applicazioni HPC. Poiché le istanze vengono eseguite in parallelo, anche i carichi di lavoro procedono in parallelo, ma separati e protetti, sulla stessa GPU A100 fisica.

MIG è ideale per carichi di lavoro come lo sviluppo di modelli IA e l'inferenza a bassa latenza. Questi carichi di lavoro possono sfruttare appieno le funzionalità di A100 e rientrare nella memoria allocata di ogni istanza.

Progettato per IT e DevOps

MIG è progettato per facilitare la distribuzione da parte dei team IT e DevOps.

Ogni istanza MIG si comporta come una GPU standalone per le applicazioni, quindi non c'è alcuna modifica alla piattaforma CUDA®. I modelli IA e le applicazioni HPC containerizzate, come quelle del NGC, possono essere eseguiti direttamente su un'istanza MIG con NVIDIA Container Runtime. Le istanze MIG vengono presentate come risorse della GPU aggiuntive nei container orchestrator come Kubernetes, in grado di pianificare carichi di lavoro containerizzati per l'esecuzione su istanze GPU specifiche. Questa funzionalità sarà presto disponibile attraverso il plug-in NVIDIA per Kubernetes

Le organizzazioni possono sfruttare i vantaggi operativi, di gestione e di monitoraggio della virtualizzazione server hypervisor, inclusa la migrazione in tempo reale e la multi-tenancy, su istanze MIG della GPU con NVIDIA Virtual Compute Server (vCS).

Dentro l'architettura NVIDIA Ampere