Portfólio completo de switches e dispositivos de gerenciamento de malha para IA e supercomputação em escala.
Visão Geral
O NVIDIA Quantum InfiniBand é a única plataforma de computação em rede da NVIDIA totalmente descarregável do mundo. Com taxa de processamento e densidade de dados inigualáveis, ele fornece o salto dramático no desempenho necessário para alcançar um desempenho inigualável de data center com menor custo e complexidade. A NVIDIA Quantum InfiniBand também disponibiliza recursos de recuperação automática de rede, Qualidade de Serviço (QoS) aprimorada, controle de congestionamento e roteamento adaptável para oferecer o maior rendimento geral das aplicações.
NVIDIA Scalable Hierarchical Aggregation and Reduction Protocol (SHARP)™ v4 para desempenho 9 vezes maior
Mais de 10 mil nós em uma fat-tree de dois níveis
Acelerado por SHARP, para desempenho até 2,5 vezes maior
Recuperação mais rápida para resiliência mil vezes maior
O InfiniBand é um padrão de interconexão de alto desempenho criado para comunicação de baixa latência e alta largura de banda entre nós de computação. Para workloads de treinamento de IA e HPC que distribuem a computação em centenas ou milhares de GPUs, a latência de rede afeta diretamente o tempo de conclusão de trabalhos. O NVIDIA Quantum InfiniBand também é a única plataforma de interconexão com suporte à computação na rede, que transfere operações coletivas, como o AllReduce, para a própria malha do switch, liberando ciclos de GPU para a computação real.
Os designs de switches convencionais usam transceptores ópticos plugáveis para conectar o ASIC do switch à fibra. Cada transceptor é um componente discreto que consome energia, gera calor e pode falhar. Em escala de clusters, isso significa gerenciar e substituir milhares de transceptores individuais ao longo da vida útil da implantação.
O switch NVIDIA Quantum-X InfiniBand Photonics integra mecanismos ópticos diretamente ao silício do switch, eliminando os transceptores plugáveis. Isso encurta o caminho elétrico entre o chip e a fibra, reduzindo o consumo de energia e a latência, enquanto um número menor de componentes discretos melhora a confiabilidade e simplifica as operações de longo prazo.
Computação em rede é a capacidade dos switches NVIDIA Quantum de executar operações de processamento de dados dentro da malha de rede, sem envolver CPUs ou GPUs host. O principal recurso é o NVIDIA SHARP, que transfere operações coletivas, como o AllReduce, diretamente para os switches. Para treinamento de IA distribuída, isso reduz o tempo gasto em comunicação entre nós e libera ciclos de GPU para computação. A SHARP acelera as operações coletivas no núcleo da maioria dos códigos de simulação paralela, reduzindo a latência e a sobrecarga de CPU. As aplicações que aproveitam NCCL, OpenMPI, UCX ou outros stacks de MPI compatíveis com padrões se beneficiam com alterações mínimas de código, tornando a Computação em Rede relevante em todos os domínios, desde o treinamento de IA até a dinâmica molecular e a modelagem climática.
Para novas implantações de IA em larga escala, a melhor escolha é o NVIDIA Quantum-X800 InfiniBand. Ele oferece conectividade XDR de 800 Gb/s e foi projetado para fábricas de IA de próxima geração que exigem máxima largura de banda para expansão horizontal, baixa latência, roteamento adaptativo, controle de congestionamento e computação in‑network SHARP para coletivos de IA e HPC. O Quantum-2 NDR 400 Gb/s continua sendo uma opção sólida para implantações de geração Hopper ou com custo otimizado, mas para novos clusters em escala Blackwell, o Quantum-X800 fornece a melhor trajetória de desempenho a longo prazo. O Q3200 é a plataforma de switches Quantum-X800 2U com resfriamento a ar, sendo adequado para ambientes grandes ou de geração mista que exigem alta densidade de portas e um caminho prático de migração.
O NVIDIA Unified Fabric Manager (UFM) é a plataforma de gerenciamento de malha para implantações do NVIDIA Quantum InfiniBand. A UFM (oferecida como um dispositivo integrado e como software autônomo) lida com provisionamento, monitoramento em tempo real, diagnóstico e solução proativa de problemas em toda a malha. O NVIDIA UFM Cyber-AI é um dispositivo dedicado para detectar comportamentos anômalos de rede que podem indicar ameaças de segurança ou problemas de hardware antes que eles impactem as tarefas.
Essa é uma consideração comum para organizações que expandem clusters existentes ou fazem sua implementação em fases. Em geral, o NVIDIA Quantum InfiniBand foi projetado para oferecer compatibilidade futura: adaptadores e switches operando em diferentes gerações de InfiniBand negociarão automaticamente para a velocidade comum apropriada. Para implantações que precisam conectar ambientes Quantum-X800 (XDR, 800 Gb/s) e Quantum-2 (NDR, 400 Gb/s), a NVIDIA recomenda o Q3200, um switch de várias velocidades criado especificamente para conectar essas duas gerações. As considerações específicas de design relacionadas à topologia, mapeamento de portas e configuração de malha usando o Q3200 são abordadas na documentação do switch NVIDIA InfiniBand.
Sim. O dispositivo NVIDIA Skyway™ foi projetado especificamente para esse caso de uso, fornecendo um gateway InfiniBand para Ethernet. A Skyway permite que os clusters de computação InfiniBand se comuniquem com sistemas de armazenamento anexados à Ethernet, redes de gerenciamento ou outra infraestrutura Ethernet sem exigir alterações em nenhum dos ambientes. Vários dispositivos Skyway podem ser implantados e escalados de forma incremental à medida que as demandas de largura de banda em diferentes redes crescem.
Próximos passos
Esta ferramenta on-line pode ajudar você a configurar clusters baseados em fat-tree com dois níveis de sistemas de comutadores e topologias Dragonfly+.
Explore tópicos de treinamento técnico aprofundados em redes NVIDIA Quantum InfiniBand por meio da NVIDIA Academy.
Acesse o NVIDIA marketplace para obter mais informações sobre como comprar soluções de rede da NVIDIA.