Núcleos Tensor NVIDIA

Aceleração sem precedentes para IA baseada em agentes.

Os núcleos tensores permitem computação de precisão mista, adaptando dinamicamente cálculos para acelerar a taxa de transferência, preservando a precisão e fornecendo segurança aprimorada. A geração mais recente de núcleos tensores é mais rápida do que nunca em uma ampla variedade de tarefas de IA e computação de alto desempenho (HPC). Desde o treinamento de modelos de IA de trilhões de parâmetros até o desempenho de inferência inovador, os núcleos tensores NVIDIA aceleram todos os workloads para fábricas de IA modernas.

Treinamento Revolucionário de AI

O treinamento de modelos de IA Generativa de vários trilhões de parâmetros com precisão de 16 bits pode levar meses. Os núcleos tensores NVIDIA apresentam o NVFP4, um formato inovador que oferece a velocidade e a eficiência do formato de 4 bits com a precisão do 16 bits. Com suporte do Transformer Engine, o NVFP4 utiliza a escalabilidade de microblocos para aumentar significativamente a taxa de transferência e reduzir as áreas de memória. Com suporte nativo de framework por meio de bibliotecas CUDA-X™, essa inovação reduz os tempos de treinamento até a convergência para a próxima geração de modelos de fronteira.

Inferência Revolucionária

Alcançar baixa latência com alta taxa de transferência, maximizando a utilização, é crítico para a implantação de inferência confiável. A plataforma NVIDIA Rubin apresenta um Transformer Engine aprimorado que aumenta o desempenho do NVFP4 com núcleos tensores de quinta geração. Ao mesmo tempo, ele preserva a precisão, permitindo até 50 petaFLOPS (PFLOPS) de inferência NVFP4. Totalmente compatível com o NVIDIA Blackwell, o Transformer Engine garante atualizações perfeitas, para que os códigos anteriormente otimizados façam a transição sem esforço para o NVIDIA Rubin.

Os núcleos tensores permitiram que a NVIDIA ganhasse os benchmarks de todo o setor do MLPerf para inferência.

Advanced HPC

HPC é um pilar fundamental da ciência moderna. Para desbloquear descobertas de última geração, os cientistas usam simulações para entender melhor moléculas complexas para descoberta de medicamentos, física para identificar possíveis fontes de energia e dados atmosféricos para prever e se preparar melhor para padrões climáticos extremos. Os Núcleos tensores NVIDIA oferecem uma variedade completa de precisões, incluindo FP64 e FP32, para acelerar a computação científica com a mais alta precisão necessária.

O SDK de HPC oferece os compiladores, as bibliotecas e as ferramentas essenciais para o desenvolvimento de aplicações de HPC na plataforma NVIDIA.

Núcleos Tensores NVIDIA Rubin

Quinta Geração Aprimorada

A plataforma NVIDIA Rubin apresenta núcleos tensores aprimorados de quinta geração. Projetados para acelerar fábricas de IA modernas, otimizam o suporte para aritmética de 4 bits de precisão estreita NVFP4 e FP8. Ao integrar fortemente esses núcleos tensores com unidades de função especial expandidas nos multiprocessadores de streaming da NVIDIA Rubin, a plataforma acelera significativamente os mecanismos de atenção e caminhos de computação dispersos, aumentando a densidade aritmética e a eficiência energética sem comprometer a precisão dos modelos.

Transformer Engine de 50 PFLOPS

Impulsionando a próxima geração de IA baseada em agentes, a GPU NVIDIA Rubin apresenta um Transformer Engine de 50 petaFLOPS que aproveita os núcleos tensores de quinta geração e a precisão NVFP4 para maximizar a eficiência da inferência. Esse salto arquitetônico escala perfeitamente para 3.600 PFLOPS para inferência NVFP4 no sistema NVIDIA Vera Rubin NVL72, oferecendo a enorme taxa de transferência essencial para modelos de raciocínio em tempo real.

Emulação

As arquiteturas NVIDIA Blackwell e Rubin podem emular as operações de matriz FP32 e FP64, decompondo os valores de entrada e aproveitando os núcleos tensores de alta taxa de transferência e menor precisão. Essa abordagem pode aumentar significativamente o desempenho e a eficiência energética, igualando ou até mesmo excedendo a precisão nativa do IEEE754. Ao utilizar algoritmos complexos e orientados por software e operações de ponto fixo, a emulação fornece uma alternativa controlada e altamente eficiente aos métodos tradicionais de execução de hardware de maior precisão.

Núcleos Tensores NVIDIA Blackwell

Quinta geração

A arquitetura NVIDIA Blackwell oferece uma aceleração de 30 vezes em comparação com a geração anterior do NVIDIA Hopper para modelos grandes, como o GPT-MoE-1.8T. Esse aumento de desempenho é possível com a quinta geração de núcleos tensores. Os núcleos tensores NVIDIA Blackwell adicionam novas precisões, incluindo formatos de microescalabilidade definidos pela comunidade, oferecendo melhor precisão e facilidade de substituição para precisões mais altas.

Novos Formatos de Precisão

À medida que os modelos de IA Generativa explodem em tamanho e complexidade, é crítico melhorar o desempenho do treinamento e da inferência. Para atender a essas necessidades de computação, os núcleos tensores NVIDIA Blackwell oferecem suporte a novos formatos e precisões de quantização, incluindo formatos de microescalabilidade definidos pela comunidade.

Transformer Engine de Segunda Geração

O Transformer Engine de segunda geração usa a tecnologia personalizada NVIDIA Blackwell Tensor Core combinada com as inovações NVIDIA® TensorRT™-LLM e NeMo™ framework para acelerar a inferência e o treinamento para grandes modelos de linguagem (LLMs) e modelos de mistura de especialistas (MoE). O Transformer Engine é impulsionado pela precisão FP4 dos Núcleos tensores, dobrando o desempenho e a eficiência, mantendo alta precisão para modelos MoE atuais e de última geração.

O Transformer Engine trabalha para democratizar as LLMs atuais com desempenho em tempo real. As empresas podem otimizar os processos empresariais, implantando modelos de IA Generativa de ponta com economia acessível.

A Mais Potente Plataforma de Data Center de AI e HPC de Ponta a Ponta

Os núcleos tensores são elementos essenciais da solução completa de data center da NVIDIA que incorpora hardware, rede, software, bibliotecas e modelos e aplicações de IA otimizados do catálogo do NVIDIA NGC™. Como a mais potente plataforma de AI e HPC de ponta a ponta, nossa solução permite que os pesquisadores gerem resultados práticos e implantem soluções na produção em escala.

NVIDIA Rubin NVIDIA Blackwell
Precisões de Tensor Core compatíveis NVFP4, FP64, TF32, BF16, FP16, FP8/FP6, INT8, NVFP4, FP64, TF32, BF16, FP16, FP8/FP6, INT8,
Precisões de CUDA® Core compatíveis FP64, FP32, INT32, FP16, BF16 FP64, FP32, FP16, BF16

*Especificações preliminares, podem estar sujeitas a alterações

Saiba mais sobre a plataforma NVIDIA Vera Rubin.