Moldando a era do processamento lógico baseado em agentes.
Visão Geral
A plataforma NVIDIA Vera Rubin foi criada para a era da IA e do raciocínio baseados em agentes, projetada para dominar a resolução de problemas em várias etapas e workflows de longo contexto em escala. Ao eliminar gargalos críticos na comunicação e no movimento de memória, a plataforma acelera a inferência para oferecer mais tokens por watt e custo por token mais baixo em comparação com a geração de arquitetura NVIDIA Blackwell.
A GPU Rubin apresenta um novo Transformer Engine (TE) com compressão adaptativa acelerada por hardware para aumentar o desempenho do NVFP4, preservando a precisão. Isso permite até 50 petaFLOPS de inferência NVFP4. Totalmente compatível com o NVIDIA Blackwell, o Transformer Engine garante atualizações perfeitas, para que os códigos anteriormente otimizados façam a transição sem esforço para a plataforma Vera Rubin.
A terceira geração da computação confidencial da NVIDIA expande a segurança para escala de rack completa com o NVIDIA Vera Rubin NVL72. Essa plataforma cria um ambiente de execução unificado e confiável em todas as 36 CPUs NVIDIA Vera, 72 GPUs NVIDIA Rubin e a malha NVIDIA NVLink™ que as conecta perfeitamente. A plataforma mantém a segurança dos dados em domínios de CPU, GPU e NVLink. Com serviços de atestação para prova criptográfica de conformidade, ela combina escala massiva com proteção sem concessões, tudo para proteger os maiores modelos proprietários do mundo, dados de treinamento e workloads de inferência.
O NVLink de sexta geração oferece um grande salto para a malha de interconexão de GPUs de alta velocidade da NVIDIA que combina 72 GPUs NVIDIA Rubin em um único domínio de desempenho. Dobrando o desempenho da NVIDIA Blackwell, a GPU Rubin oferece 3,6 terabytes por segundo (TB/s) de largura de banda por GPU e 260 TB/s de conectividade com baixa latência para facilitar a comunicação mais rápida. Combinada com o NVIDIA Scalable Hierarchical Aggregation and Reduction Protocol (SHARP), que reduz o congestionamento da rede em até 50% para operações coletivas, essa interconexão de última geração acelera o treinamento e a inferência para os maiores modelos do mundo, em escala e sem concessões.
A plataforma NVIDIA Vera Rubin oferece resiliência em escala de rack com recursos avançados de confiabilidade. As GPUs NVIDIA Rubin apresentam um mecanismo RAS dedicado de segunda geração para manutenção proativa e verificações de integridade em tempo real sem tempo de inatividade. As CPUs NVIDIA Vera adicionam manutenção aprimorada com módulos de memória de pequeno formato anexados por compressão (SOCAMM) LPDDR5X e testes integrados no sistema para os núcleos de CPU. O rack apresenta designs de bandejas modulares e sem cabos para montagem e manutenção 18 vezes mais rápidas em comparação com o NVIDIA Blackwell, combinados com resiliência inteligente e roteamento NVLink definido por software, que garante a operação contínua e reduz a sobrecarga de manutenção.
A CPU NVIDIA Vera foi projetada para movimentação de dados e processamento baseado em agentes em sistemas acelerados, com suporte total à computação confidencial. Ele emparelha perfeitamente com as GPUs NVIDIA ou opera de forma independente para cargas de trabalho de análise, nuvem, orquestração, armazenamento e computação de alto desempenho (HPC). O Vera combina 88 núcleos projetados pela NVIDIA, até 1,2 TB/s de largura de banda de memória LPDDR5X e o NVIDIA Scalable Coherency Fabric para oferecer desempenho previsível e eficiente em termos energéticos para cargas de trabalho com uso intensivo de dados e memória, com compatibilidade total com o Arm®. A conectividade integrada do NVIDIA NVLink-C2C permite acesso coerente de alta largura de banda à memória de CPU e GPU para maximizar a utilização e a eficiência do sistema.
Criada com um alto nível de codesign, o NVIDIA Vera Rubin trata o data center, não o chip, como a unidade de computação, estabelecendo uma nova base para produzir inteligência de forma eficiente, segura e previsível em larga escala.