Moldando a era do processamento lógico baseado em agentes.
Visão Geral
O NVIDIA Rubin foi criado para a era da IA baseada em agentes e dos modelos de processamento lógico, enfrentando a resolução de problemas em múltiplas etapas e workflows de longo contexto em escala. Ao eliminar gargalos na comunicação, coordenação e movimento de memória, o NVIDIA Rubin oferece escalabilidade e eficiência inigualáveis, impulsionando agentes autônomos a processar logicamente, agir e inovar em larga escala.
O Transformer Engine de terceira geração avança significativamente a fronteira do desempenho de IA, oferecendo o dobro do desempenho de inferência de fase de contexto para arquiteturas de modelos de ponta, como a mistura de especialistas (MoE – Mixture of Experts). Esse avanço é alcançado com sua Unidade de Aceleração Adaptável (AAU – Adaptive Acceleration Unit ), que orquestra a execução de forma inteligente, selecionando dinamicamente caminhos de computação ideais e ativando instruções especializadas. Essas otimizações aprimoram as operações de atenção, permitindo maior taxa de transferência, menor custo por token e eficiência escalável para cargas de trabalho de IA Generativa de última geração.
A terceira geração de Computação Confidencial da NVIDIA inclui a CPU NVIDIA Vera, expandindo a segurança para escala de rack completo com o NVIDIA Vera Rubin NVL72. Essa plataforma cria um ambiente unificado de execução confiável entre 36 CPUs NVIDIA Vera, 72 GPUs NVIDIA Rubin e a malha de interconexão NVIDIA NVLink™, com largura de banda de 260 terabytes por segundo (TB/s), que as conecta com perfeição. Ela protege todo o ciclo de vida de IA, do pré-treinamento e pós-treinamento à inferência, mantendo modelos proprietários, dados e prompts isolados de provedores de nuvem e outros locatários. Com serviços de atestação para prova criptográfica de conformidade e taxa de transferência quase não criptografada habilitada pelo NVLink-C2C, o NVL72 combina escala massiva com proteção sem concessões, transformando a privacidade em uma vantagem de desempenho.
O NVLink de sexta geração oferece um grande salto para a malha de interconexão de GPUs de alta velocidade da NVIDIA que combina 72 GPUs NVIDIA Rubin em um único domínio de desempenho. Ele oferece 3,6 TB/s de largura de banda por GPU e 260 TB/s de conectividade (o dobro do NVIDIA Blackwell) com baixa latência para facilitar a comunicação mais rápida. Combinada com o NVIDIA® Scalable Hierarchical Aggregation and Reduction Protocol (SHARP)™ para eficiência de largura de banda excepcional, essa interconexão de última geração acelera o treinamento e a inferência para os maiores modelos do mundo, em larga escala e sem concessões.
O NVIDIA Vera Rubin NVL72 oferece resiliência em escala de rack com recursos avançados de confiabilidade. As GPUs NVIDIA Rubin apresentam um mecanismo RAS dedicado de segunda geração para manutenção proativa e verificações de integridade em tempo real sem tempo de inatividade, enquanto as CPUs NVIDIA Vera adicionam capacidade de manutenção aprimorada com o SOCAMM LPDDR5X e testes no sistema para os núcleos da CPU. O design modular e sem cabos do rack, combinado com o failover inteligente e o roteamento NVLink definido por software, garante a operação contínua e reduz a sobrecarga de manutenção.
A CPU NVIDIA Vera é projetada para movimentação de dados e processamento lógico orientado a agentes em sistemas acelerados. Ela emparelha perfeitamente com as GPUs NVIDIA ou opera de forma independente para cargas de trabalho de análise, nuvem, orquestração, armazenamento e computação de alto desempenho (HPC). Com 88 núcleos de alto desempenho projetados pela NVIDIA, largura de banda de memória LPDDR5X de até 1,2 TB/s e o NVIDIA Scalable Coherency Fabric, a CPU NVIDIA Vera oferece desempenho previsível e com eficiência energética para cargas de trabalho com uso intensivo de dados e memória. A conectividade integrada NVLink‑C2C permite acesso coerente à memória entre CPU e GPU com alta largura de banda, maximizando a utilização do sistema, a eficiência e o retorno sobre o investimento.
Criada com um alto nível de codesign, o NVIDIA Vera Rubin trata o data center, não o chip, como a unidade de computação, estabelecendo uma nova base para produzir inteligência de forma eficiente, segura e previsível em larga escala.