NVIDIA Tensor Cores

Aceleração sem Precedentes para HPC e AI

Os Tensor Cores possibilitam a computação de precisão mista, adaptando cálculos de forma dinâmica para acelerar a taxa de transferência e manter a exatidão. A mais nova geração de Tensor Cores está mais rápida que nunca e engloba ainda mais tarefas de AI e de computação de alto desempenho (HPC). Os NVIDIA Tensor Cores fornecem novos recursos para todas as cargas de trabalho, como uma aceleração de 6 vezes em treinamentos de redes de transformers e um aumento de desempenho de 3 vezes em todas as aplicações.

Treinamento Revolucionário de AI

Treinamento Revolucionário de AI

Os modelos de AI estão cada vez mais complexos, assumindo desafios de novos níveis, como a AI conversacional. O treinamento de modelos grandes em FP32 pode levar semanas ou até meses. Os NVIDIA Tensor Cores oferecem um desempenho em uma ordem de magnitude superior, com precisão reduzida, como o ponto flutuante de 8 bits (FP8) no Transformer Engine, o Tensor Float 32 (TF32) e o FP16. Com suporte direto em frameworks nativos via bibliotecas CUDA-X, a implementação é automática, reduzindo significativamente os tempos de treinamento para convergência e mantendo a exatidão.

Os Tensor Cores permitiram que a NVIDIA conquistasse o benchmark MLPerf do setor para treinamento.

Inferência Inovadora de AI

Inferência Inovadora de AI

Um ótimo acelerador de inferência de AI precisa oferecer não apenas um ótimo desempenho, mas também versatilidade para acelerar redes neurais diversas e a programabilidade para permitir que os desenvolvedores criem novas redes. Os requisitos de desempenho mais importantes para a implantação confiável de inferência são: baixa latência a alta taxa de transferência e maximização da utilização. Os NVIDIA Tensor Cores oferecem uma ampla variedade de precisões: TF32, bfloat16, FP16, FP8 e INT8, para fornecer versatilidade e desempenho incomparáveis. 

Os Tensor Cores permitiram que a NVIDIA conquistasse o benchmark MLPerf do setor para inferência.

HPC Avançada

HPC Avançada

A HPC é um pilar fundamental da ciência moderna. Para realizar descobertas de próxima geração, os cientistas usam simulações que permitem compreender melhor moléculas complexas para o desenvolvimento de medicamentos, a física para a busca de fontes de energia potenciais e dados atmosféricos para prever e preparar-se para padrões climáticos extremos. Os NVIDIA Tensor Cores oferecem uma ampla variedade de precisões, incluindo FP64, para acelerar a computação científica com a maior exatidão exigida.

O SDK de HPC oferece os compiladores, as bibliotecas e as ferramentas essenciais para o desenvolvimento de aplicações de HPC na plataforma NVIDIA.

Tensor Cores da NVIDIA H100

Quarta Geração

Desde a introdução da tecnologia Tensor Core, as GPUs NVIDIA tiveram um aumento de desempenho máximo de 60 vezes, impulsionando a democratização da computação para AI e HPC. A arquitetura NVIDIA Hopper™ avança os Tensor Cores de quarta geração com o Transformer Engine usando uma nova precisão de ponto flutuante de 8 bits (FP8) para oferecer um desempenho 6 vezes melhor em relação à FP16 para treinamento de modelos de trilhões de parâmetros. Aliados a um desempenho 3 vezes melhor usando as precisões TF32, FP64, FP16 e INT8, os Tensor Cores da Hopper oferecem as maiores acelerações para todas as cargas de trabalho.

  • FP8
  • TF32
  • FP64
  • FP16
  • INT8
Tensor Cores FP8

FP8

Os tempos de treinamento para redes de AI de Transformer estão chegando a meses devido ao grande volume de computação matemática. A FP8 na Hopper oferece até 6 vezes mais desempenho que a FP16 na Ampere. A FP8 é usada no Transformer Engine, uma tecnologia de Tensor Core da Hopper projetada especificamente para acelerar o treinamento de modelos de transformer. Os Tensor Cores da Hopper são capazes de aplicar formatos de precisão mistos FP8 e FP16 para acelerar significativamente os cálculos de AI para treinamento de transformer e manter a exatidão. A FP8 também acelera consideravelmente a inferência de grandes modelos de linguagem com um desempenho até 30 vezes melhor que o da Ampere.

Tensor Float 32

TF32

As redes e os conjuntos de dados de AI expandem-se exponencialmente, exigindo sempre mais capacidade computacional. A matemática de precisão mais baixa possibilitou grandes acelerações de desempenho, mas exigia algumas alterações de código. A H100 tem suporte para precisão TF32, que funciona como a FP32 e oferece acelerações de AI de até 3 vezes em relação aos Tensor Cores da NVIDIA Ampere™, sem necessidade de alterações de código.

Tensor Cores FP64

FP64

A H100 continua a levar a potência dos Tensor Cores à HPC, com um desempenho inédito. O desempenho de FP64 da H100 é 3 vezes mais rápido em comparação com a geração anterior, acelerando um número ainda maior de aplicações de HPC que exigem cálculos de precisão dupla.

Tensor Cores FP16

FP16

Os Tensor Cores H100 impulsionam a FP16 para deep learning, oferecendo uma aceleração de AI de 3 vezes em comparação aos Tensor Cores da arquitetura NVIDIA Ampere. Isso aumenta significativamente a taxa de transferência e reduz o tempo de convergência.

INT8

INT8

Apresentados pela primeira vez na NVIDIA Turing™, os Tensor Cores INT8 aceleram significativamente a taxa de transferência de inferência e fornecem grandes aumentos na eficiência. A INT8 da arquitetura NVIDIA Hopper oferece uma taxa de transferência 3 vezes maior comparada à geração anterior de Tensor Cores para implantações de produção. Essa versatilidade permite o desempenho líder do setor para cargas de trabalho de muitos lotes, em tempo real, em data centers de núcleo e no edge.  

Tensor Cores da Arquitetura NVIDIA Ampere

Tensor Cores da Arquitetura NVIDIA Ampere

Terceira Geração

Os Tensor Cores da arquitetura NVIDIA Ampere ampliam inovações anteriores ao introduzir novas precisões (TF32 e FP64) para acelerar e simplificar a adoção da AI e ampliar o poder dos Tensor Cores para a HPC. Além disso, com suporte para bfloat16, INT8 e INT4, os Tensor Cores de terceira geração criam aceleradores incrivelmente versáteis para treinamento e inferência de AI.

Tensor Cores da NVIDIA Turing

Segunda Geração

A tecnologia de Tensor Cores da NVIDIA Turing conta com computação de multiprecisão para inferência de AI eficiente. Os Tensor Cores da Turing oferecem diversas precisões para treinamento e inferência de deep learning, da FP32 à FP16 e INT8, bem como a INT4, para proporcionar enormes saltos de desempenho em relação às GPUs NVIDIA Pascal.

Tensor Cores da Turing
Tensor Cores da Volta

Tensor Cores da NVIDIA Volta

Primeira Geração

Projetada especificamente para deep learning, a primeira geração de Tensor Cores na NVIDIA Volta oferece desempenho inovador com matriz de precisão mista de FP16 e FP32, 12 vezes mais teraFLOPS (TFLOPS) de pico para treinamento e 6 vezes mais TFLOPS de pico para inferência em comparação à NVIDIA Pascal. Esse recurso essencial permite que a Volta ofereça um desempenho de treinamento e inferência 3 vezes maior que o da Pascal.

A Mais Potente Plataforma de Data Center de AI e HPC de Ponta a Ponta

Os Tensor Cores são a fundação da solução completa de data center NVIDIA que incorpora componentes de hardware, rede, software, bibliotecas e modelos e aplicações de AI otimizados do catálogo do NVIDIA NGC. Como a mais potente plataforma de AI e HPC de ponta a ponta, nossa solução permite que os pesquisadores gerem resultados práticos e implantem soluções na produção em escala.

Hopper Ampere Turing Volta
Precisões de Tensor Core compatíveis FP64, TF32, bfloat16, FP16, FP8, INT8 FP64, TF32, bfloat16, FP16, INT8, INT4, INT1 FP16, INT8, INT4, INT1 FP16
Precisões de CUDA® Core compatíveis FP64, FP32, FP16, bfloat16, INT8 FP64, FP32, FP16, bfloat16, INT8 FP64, FP32, FP16, INT8 FP64, FP32, FP16, INT8

 Especificações preliminares sujeitas a alterações

Aprofunde-se na Arquitetura NVIDIA Hopper