GPU Multi-Instância NVIDIA

Sete Instâncias Independentes em uma Única GPU

A GPU Multi-Instância (MIG - Multi-Instance GPU) amplia o desempenho e o valor das GPUs NVIDIA H100, A100 e A30 Tensor Core. A MIG pode particionar a GPU em até sete instâncias, totalmente isoladas com sua própria memória de alta largura de banda, cache e núcleos de computação. Isso possibilita que os administradores ofereçam suporte a todas as cargas de trabalho, das menores às maiores, com qualidade de serviço (QoS) garantida e aumento do alcance dos recursos de computação acelerada para todos os usuários.  

Visão Geral das Vantagens

Expanda o Acesso à GPU a Mais Usuários

Expanda o Acesso à GPU

Com a MIG, você pode obter até 7 vezes mais recursos de processamento em uma única GPU. A MIG oferece a pesquisadores e desenvolvedores mais recursos e flexibilidades do que nunca.

Otimize o Uso da GPU

Otimize o Uso da GPU

A MIG oferece a flexibilidade para escolher tamanhos diferentes de instâncias, permitindo a implementação da instância de GPU do tamanho certo para cada carga de trabalho, otimizando o uso e maximizando o investimento em data center.

Execute Cargas de Trabalho Variadas Simultâneas

Execute Cargas de Trabalho Simultâneas

A MIG possibilita que cargas de trabalho de inferência, treinamento e computação de alto desempenho (HPC - High Performance Computing) sejam executadas ao mesmo tempo em uma única GPU com latência e taxa de processamento determinísticas. Ao contrário do que é feito em frações de tempo, cada carga de trabalho é executada em paralelo, proporcionando alto desempenho.

Como Funciona a Tecnologia

Sem a MIG, tarefas diferentes executadas na mesma GPU, como solicitações de inferência de AI, competem pelos mesmos recursos. Um trabalho que consome uma largura de banda de memória maior prejudica os outros, e várias tarefas podem ficar sem atingir os objetivos de latência. Com a MIG, os trabalhos são executados simultaneamente em diferentes instâncias, cada uma com recursos dedicados para computação, memória e largura de banda de memória, resultando em desempenho previsível com qualidade de serviço (QoS) e aproveitamento máximo da GPU.

GPU Multi-Instância

Provisione e Configure Instâncias Conforme Necessário

Uma GPU pode ser particionada em instâncias MIG de diferentes tamanhos. Por exemplo, em uma NVIDIA A100 de 40GB, um administrador poderia criar duas instâncias com 20 gigabytes (GB) de memória cada, três instâncias com 10GB cada ou sete instâncias com 5GB cada. Ou fazer uma combinação. 

As instâncias de MIG também podem ser reconfiguradas dinamicamente, possibilitando que os administradores mudem os recursos da GPU seguindo as mudanças nas demandas dos usuários e empresas. Por exemplo, sete instâncias de MIG podem ser usadas durante o dia para inferência de baixa taxa de processamento e reconfiguradas para uma grande instância de MIG à noite para treinamento de deep learning.

Execute Cargas de Trabalho em Paralelo com Segurança

Com um conjunto dedicado de recursos de hardware para computação, memória e cache, cada instância da MIG oferece garantia de qualidade de serviço (QoS) e de isolamento de falhas. Ou seja, se houver falha em uma aplicação executada em uma instância, as aplicações em execução em outras instâncias não serão afetadas.

Isso também significa que diferentes instâncias podem executar cargas de trabalho variadas: desenvolvimento de modelo interativo, treinamento de deep learning, inferência de AI ou aplicações de HPC. Como as instâncias são executadas em paralelo, as cargas de trabalho também são, porém separadas e isoladas, na mesma GPU física.

MIG na NVIDIA H100

Impulsionada pela arquitetura NVIDIA Hopper™, a H100 aprimora a MIG permitindo configurações multilocatárias e com vários usuários em ambientes virtualizados em até sete instâncias de GPU, isolando cada instância de forma segura com computação confidencial no hardware e no hipervisor. Os decodificadores de vídeo dedicados para cada instância da MIG oferecem análise inteligente de vídeo (IVA - Intelligent Video Analytics) segura e de alto rendimento na infraestrutura compartilhada. Com a criação simultânea de perfis da MIG da Hopper, os administradores podem monitorar a aceleração ideal por GPU e alocar recursos para vários usuários. 

No caso de pesquisadores com cargas de trabalho menores, em vez de alugarem uma instância completa de cloud, eles podem usar a MIG para isolar com segurança uma parte de uma GPU sem se preocupar com a segurança dos dados em repouso, em trânsito e em uso. Isso melhora a flexibilidade para que os provedores de serviço em cloud possam fixar preços e abordar oportunidades menores para os clientes.

Veja a MIG em Ação

GPU NVIDIA A100 Tensor Core

Executando Várias Cargas de Trabalho em uma Única GPU A100

Esta demonstração executa cargas de trabalho de AI e computação de alto desempenho (HPC) simultaneamente na mesma GPU A100.

GPU Multi-Instância na GPU NVIDIA A100 Tensor Core

Aumentando o Desempenho e o Uso com uma GPU Multi-Instância

Esta demonstração mostra o desempenho de inferência em uma divisão de tempo de MIG e que em seguida é dimensionado linearmente em toda a A100.

Desenvolvida para IT e DevOps

A MIG permite o provisionamento detalhado de GPU pelas equipes de IT e DevOps. Cada instância de MIG se comporta como uma GPU autônoma para aplicações, então não há nenhuma alteração na plataforma CUDA®. A MIG pode ser usada nos principais ambientes de computação empresarial.

Garanta a Máxima Flexibilidade no Data Center

Uma GPU NVIDIA A100 pode ser particionada em instâncias MIG de diferentes tamanhos. Por exemplo, um administrador poderia criar duas instâncias com 20 gigabytes (GB) de memória cada uma, três instâncias com 10GB ou sete instâncias com 5GB. Ou fazer uma combinação. Assim, o administrador do sistema pode fornecer GPUs do tamanho certo aos usuários para diferentes tipos de cargas de trabalho.

As instâncias de MIG também podem ser reconfiguradas dinamicamente, possibilitando que os administradores mudem os recursos da GPU seguindo as mudanças nas demandas dos usuários e empresas. Por exemplo, sete instâncias de MIG podem ser usadas durante o dia para inferência de baixa taxa de processamento e reconfiguradas para uma grande instância de MIG à noite para treinamento de deep learning.

Ofereça uma Qualidade de Serviço Excepcional

Cada instância da MIG tem um conjunto dedicado de recursos de hardware para computação, memória e cache e oferece garantia de qualidade de serviço (QoS) e de isolamento de falhas. Ou seja, se houver falha em uma aplicação executada em uma instância, as aplicações em execução em outras instâncias não serão afetadas. E diferentes instâncias podem executar cargas de trabalho variadas: desenvolvimento de modelo interativo, treinamento de deep learning, inferência de AI ou aplicações de HPC. Como as instâncias são executadas em paralelo, as cargas de trabalho também são, mas separadas e isoladas, na mesma GPU A100 física.

A MIG é ótima opção para cargas de trabalho, como desenvolvimento de modelos de AI e inferência de baixa latência. Essas cargas de trabalho podem aproveitar ao máximo os recursos da A100 e cabem na memória limitada de cada instância.

Especificações da MIG

H100 A100
Computação confidencial Sim -
Tipos de instância 7x 10GB
4x 20GB
2x 40GB (maior capacidade computacional)
1x 80GB
7x 10GB
3x 20GB
2x 40GB
1x 80GB
Criação e monitoramento de perfis de GPU Simultaneamente em todas as instâncias Apenas uma instância por vez
Locatários Seguros 7x 1x
Decodificadores de mídia NVJPEG e NVDEC dedicados por instância Opções limitadas

 Especificações preliminares sujeitas a alterações

Saiba tudo sobre a Arquitetura NVIDIA Hopper

Saiba tudo sobre a Arquitetura NVIDIA Ampere