Os núcleos tensores permitem computação de precisão mista, adaptando dinamicamente cálculos para acelerar a taxa de transferência, preservando a precisão e fornecendo segurança aprimorada. A geração mais recente de núcleos tensores é mais rápida do que nunca em uma ampla variedade de tarefas de IA e computação de alto desempenho (HPC). Desde o treinamento de modelos de IA de trilhões de parâmetros até o desempenho de inferência inovador, os núcleos tensores NVIDIA aceleram todos os workloads para fábricas de IA modernas.
A plataforma NVIDIA Rubin apresenta núcleos tensores aprimorados de quinta geração. Projetados para acelerar fábricas de IA modernas, otimizam o suporte para aritmética de 4 bits de precisão estreita NVFP4 e FP8. Ao integrar fortemente esses núcleos tensores com unidades de função especial expandidas nos multiprocessadores de streaming da NVIDIA Rubin, a plataforma acelera significativamente os mecanismos de atenção e caminhos de computação dispersos, aumentando a densidade aritmética e a eficiência energética sem comprometer a precisão dos modelos.
Impulsionando a próxima geração de IA baseada em agentes, a GPU NVIDIA Rubin apresenta um Transformer Engine de 50 petaFLOPS que aproveita os núcleos tensores de quinta geração e a precisão NVFP4 para maximizar a eficiência da inferência. Esse salto arquitetônico escala perfeitamente para 3.600 PFLOPS para inferência NVFP4 no sistema NVIDIA Vera Rubin NVL72, oferecendo a enorme taxa de transferência essencial para modelos de raciocínio em tempo real.
As arquiteturas NVIDIA Blackwell e Rubin podem emular as operações de matriz FP32 e FP64, decompondo os valores de entrada e aproveitando os núcleos tensores de alta taxa de transferência e menor precisão. Essa abordagem pode aumentar significativamente o desempenho e a eficiência energética, igualando ou até mesmo excedendo a precisão nativa do IEEE754. Ao utilizar algoritmos complexos e orientados por software e operações de ponto fixo, a emulação fornece uma alternativa controlada e altamente eficiente aos métodos tradicionais de execução de hardware de maior precisão.
A arquitetura NVIDIA Blackwell oferece uma aceleração de 30 vezes em comparação com a geração anterior do NVIDIA Hopper para modelos grandes, como o GPT-MoE-1.8T. Esse aumento de desempenho é possível com a quinta geração de núcleos tensores. Os núcleos tensores NVIDIA Blackwell adicionam novas precisões, incluindo formatos de microescalabilidade definidos pela comunidade, oferecendo melhor precisão e facilidade de substituição para precisões mais altas.
À medida que os modelos de IA Generativa explodem em tamanho e complexidade, é crítico melhorar o desempenho do treinamento e da inferência. Para atender a essas necessidades de computação, os núcleos tensores NVIDIA Blackwell oferecem suporte a novos formatos e precisões de quantização, incluindo formatos de microescalabilidade definidos pela comunidade.
O Transformer Engine de segunda geração usa a tecnologia personalizada NVIDIA Blackwell Tensor Core combinada com as inovações NVIDIA® TensorRT™-LLM e NeMo™ framework para acelerar a inferência e o treinamento para grandes modelos de linguagem (LLMs) e modelos de mistura de especialistas (MoE). O Transformer Engine é impulsionado pela precisão FP4 dos Núcleos tensores, dobrando o desempenho e a eficiência, mantendo alta precisão para modelos MoE atuais e de última geração.
O Transformer Engine trabalha para democratizar as LLMs atuais com desempenho em tempo real. As empresas podem otimizar os processos empresariais, implantando modelos de IA Generativa de ponta com economia acessível.
Os núcleos tensores são elementos essenciais da solução completa de data center da NVIDIA que incorpora hardware, rede, software, bibliotecas e modelos e aplicações de IA otimizados do catálogo do NVIDIA NGC™. Como a mais potente plataforma de AI e HPC de ponta a ponta, nossa solução permite que os pesquisadores gerem resultados práticos e implantem soluções na produção em escala.
| NVIDIA Rubin | NVIDIA Blackwell | |
|---|---|---|
| Precisões de Tensor Core compatíveis | NVFP4, FP64, TF32, BF16, FP16, FP8/FP6, INT8, | NVFP4, FP64, TF32, BF16, FP16, FP8/FP6, INT8, |
| Precisões de CUDA® Core compatíveis | FP64, FP32, INT32, FP16, BF16 | FP64, FP32, FP16, BF16 |
*Especificações preliminares, podem estar sujeitas a alterações
Saiba mais sobre a plataforma NVIDIA Vera Rubin.