A Base da Comunicação Avançada com Várias GPUs
As crescentes demandas de computação em AI e na computação de alto desempenho (HPC) estão levando à necessidade de sistemas com várias GPUs com conexões perfeitas entre as GPUs, para que possam atuar juntos como um acelerador gigantesco. Porém, embora o PCIe seja padrão, sua largura de banda limitada geralmente cria um gargalo. Para criar a plataforma de computação de ponta a ponta mais poderosa, é necessária uma interconexão mais rápida e escalável.
NVIDIA® NVLink® é uma interconexão direta de GPU para GPU de alta velocidade. NVIDIA NVSwitch™ leva a interconectividade para o próximo nível, incorporando vários NVLinks para fornecer comunicação completa entre GPUs na velocidade máxima do NVLink em um único nó como o NVIDIA HGX™ A100. A combinação do NVLink e NVSwitch permitiu à NVIDIA escalar com eficiência o desempenho da AI para várias GPUs e ganhar o MLPerf 0.6, o primeiro benchmark de AI em todo o setor.
NVIDIA A100 PCIe com conexão NVLink GPU-para-GPU
NVIDIA A100 com conexões NVLink entre GPUs
O diagrama de topologia NVSwitch mostra a conexão de duas GPUs para simplificar. Oito ou 16 GPUs conectam tudo a todos através do NVSwitch da mesma maneira.
A tecnologia NVIDIA NVLink soluciona problemas de interconexão, fornecendo maior largura de banda, mais links e escalabilidade aprimorada para configurações de sistema com várias GPUs. Uma única GPU NVIDIA A100 Tensor Core suporta até 12 conexões NVLink de terceira geração para uma largura de banda total de 600 gigabytes por segundo (GB/s), quase 10 vezes a largura de banda do PCIe Gen 4.
Servidores como o NVIDIA DGX™ A100 aproveitam essa tecnologia para oferecer maior escalabilidade para treinamento ultra-rápido de deep learning. O NVLink também está disponível com configurações de duas GPUs A100 PCIe
O NVLink no NVIDIA A100 dobra a largura de banda de comunicação entre GPUs, em comparação com a geração anterior, para que os pesquisadores possam usar aplicações maiores e mais sofisticadas para resolver problemas mais complexos.
A rápida adoção de deep learning levou à necessidade de uma interconexão mais rápida e escalável, pois a largura de banda do PCIe geralmente cria um gargalo no nível do sistema com várias GPUs. Para que as cargas de trabalho de deep learning sejam dimensionadas, é necessária uma largura de banda muito maior e latência reduzida.
NVIDIA NVSwitch se baseia no avançado recurso de comunicação do NVLink para resolver esse problema. Leva o desempenho de deep learning para o próximo nível com uma rede que permite mais GPUs em um único servidor e conectividade de largura de banda total entre elas. Cada GPU possui 12 NVLinks para NVSwitch para permitir a comunicação de alta velocidade, tudo para todos.
O NVLink e o NVSwitch são componentes essenciais da solução completa para data center da NVIDIA, que incorpora hardware, rede, software, bibliotecas e modelos e aplicações de AI otimizadas do NGC™. A mais poderosa e completa plataforma de AI e HPC permite que os pesquisadores entreguem resultados do mundo real e implantem soluções em produção, acelerando sem precedentes em todas as escalas.
O NVSwitch é a primeira arquitetura de switch no nó a suportar de 8 a 16 GPUs totalmente conectadas em um único nó do servidor. O NVSwitch de segunda geração gera comunicação simultânea entre todos os pares de GPUs a incríveis 600GB/s. Ele suporta comunicação completa com o endereçamento direto da memória ponto a ponto da GPU. Estas 16 GPUs podem ser usadas como um único acelerador de alto desempenho, com espaço de memória unificado e até 10 petaFLOPS de poder computacional de deep learning.
Experimente o NVIDIA DGX A100, o sistema universal de infraestrutura de AI e o primeiro sistema de AI do mundo construído na GPU NVIDIA A100 Tensor Core.