A GPU Multi-Instância (MIG) expande o desempenho e o valor de cada GPU NVIDIA A100 Tensor Core. A MIG pode particionar a GPU A100 em até sete instâncias, cada uma totalmente isolada com seus próprios núcleos de memória, cache e computação de alta largura de banda. Agora, os administradores podem oferecer suporte a todas as cargas de trabalho, da menor à maior, oferecendo uma GPU do tamanho certo com qualidade de serviço (QoS) garantida para cada trabalho, otimizando a utilização e estendendo o alcance dos recursos de computação acelerada para todos os usuários.
Com a MIG, você pode obter até 7 vezes mais recursos de GPU em uma única GPU A100. A MIG oferece aos pesquisadores e desenvolvedores mais recursos e flexibilidade do que nunca.
A MIG oferece a flexibilidade de escolher vários tamanhos de instância diferentes, o que permite o provisionamento da instância de GPU do tamanho certo para cada carga de trabalho oferecendo, finalmente, a utilização ideal e maximizando o investimento no data center.
A MIG permite que as cargas de trabalho de inferência, treinamento e computação de alto desempenho (HPC) sejam executadas ao mesmo tempo em uma única GPU com latência e taxa de transferência determinadas.
Sem a MIG, diferentes trabalhos em execução na mesma GPU, como diferentes solicitações de inferência de AI, competem pelos mesmos recursos, como largura de banda da memória. Um trabalho que consome largura de banda de memória maior acaba deixando outros com menos memória, resultando em vários trabalhos perdendo seus destinos de latência. Com a MIG, os trabalhos são executados simultaneamente em diferentes instâncias, cada uma com recursos dedicados para computação, memória e largura de banda da memória, resultando em desempenho previsível com qualidade de serviço e utilização máxima da GPU.
Uma GPU NVIDIA A100 pode ser particionada em instâncias MIG de tamanhos diferentes. Por exemplo, um administrador pode criar duas instâncias com 20 gigabytes (GB) de memória cada uma ou três instâncias com 10GB ou sete instâncias com 5GB. Ou uma mistura delas. Portanto, o administrador de sistemas pode dimensionar GPUs do tamanho certo aos usuários para diferentes tipos de cargas de trabalho.
As instâncias da MIG também podem ser reconfiguradas dinamicamente, permitindo que os administradores mudem os recursos da GPU em resposta às mudanças nas demandas dos usuários e dos negócios. Por exemplo, sete instâncias MIG podem ser usadas durante o dia para inferência de baixa taxa de transferência e reconfiguradas para uma grande instância MIG à noite para treinamento de deep learning.
Cada instância MIG possui um conjunto dedicado de recursos de hardware para computação, memória e cache, oferecendo qualidade de serviço (QoS) garantida e isolamento de falhas para a carga de trabalho. Isso significa que a falha em uma aplicação em execução em uma instância não afeta as aplicações em execução em outras instâncias. E diferentes instâncias podem executar diferentes tipos de cargas de trabalho: desenvolvimento de modelo interativo, treinamento de deep learning, inferência de AI ou aplicações HPC. Como as instâncias são executadas em paralelo, as cargas de trabalho também são executadas em paralelo, mas separadas e isoladas, na mesma GPU A100 física.
A MIG é ideal para cargas de trabalho, como desenvolvimento de modelo de AI e inferência de baixa latência. Essas cargas de trabalho podem aproveitar ao máximo os recursos da A100 e caber na memória alocada de cada instância.
Com a GPU NVIDIA A100 Tensor Core, pesquisadores e desenvolvedores podem usar uma GPU dedicada para executar sua carga de trabalho, mesmo se esta carga de trabalho usar apenas uma fração da capacidade de computação da GPU. A A100 inclui um recurso inovador chamado GPU Multi-Instância (MIG), que divide a GPU em até sete instâncias, cada uma com computação, memória e largura de banda independentes. Isso permite que vários usuários executem suas cargas de trabalho na mesma GPU, maximizando a utilização e a produtividade do usuário. Esta demonstração executa cargas de trabalho de AI e computação de alto desempenho (HPC) simultaneamente na mesma GPU A100.
A MIG na GPU NVIDIA A100 Tensor Core pode garantir o desempenho de até sete trabalhos executados simultaneamente na mesma GPU, sendo que cada instância é totalmente isolada com sua própria computação, memória e largura de banda. Esse recurso exclusivo da A100 proporciona a GPU do tamanho certo para cada tipo de trabalho e maximiza a utilização do data center. Esta demonstração mostra o desempenho de inferência em uma única fatia do MIG e, em seguida, escala linearmente em toda a A100.
O MIG permite um provisionamento apurado de GPU por equipes de IT e DevOps. Cada instância MIG se comporta como uma GPU autônoma para aplicações, portanto, não há alteração na plataforma CUDA®. O MIG pode ser usado em todos os principais ambientes de computação empresarial.
Use MIG em A100 local de bare metal e em instâncias de cloud.
Execute aplicações em contêineres em instâncias MIG.
Agende pods Kubernetes em instâncias MIG.
Execute aplicações em instâncias MIG dentro de uma máquina virtual.
Mergulhe fundo na Arquitetura NVIDIA Ampere