Os Tensor Cores possibilitam a computação de precisão mista, adaptando cálculos de forma dinâmica para acelerar a taxa de transferência e manter a exatidão. A mais nova geração de Tensor Cores está mais rápida que nunca e engloba ainda mais tarefas de AI e de computação de alto desempenho (HPC). Os NVIDIA Tensor Cores fornecem novos recursos para todas as cargas de trabalho, como uma aceleração de 6 vezes em treinamentos de redes de transformers e um aumento de desempenho de 3 vezes em todas as aplicações.
Os modelos de AI estão cada vez mais complexos, assumindo desafios de novos níveis, como a AI conversacional. O treinamento de modelos grandes em FP32 pode levar semanas ou até meses. Os NVIDIA Tensor Cores oferecem um desempenho em uma ordem de magnitude superior, com precisão reduzida, como o ponto flutuante de 8 bits (FP8) no Transformer Engine, o Tensor Float 32 (TF32) e o FP16. Com suporte direto em frameworks nativos via bibliotecas CUDA-X™, a implementação é automática, reduzindo significativamente os tempos de treinamento para convergência e mantendo a exatidão.
Os Tensor Cores permitiram que a NVIDIA conquistasse o benchmark MLPerf do setor para treinamento.
Um ótimo acelerador de inferência de AI precisa oferecer não apenas um ótimo desempenho, mas também versatilidade para acelerar redes neurais diversas e a programabilidade para permitir que os desenvolvedores criem novas redes. Os requisitos de desempenho mais importantes para a implantação confiável de inferência são: baixa latência a alta taxa de transferência e maximização da utilização. Os NVIDIA Tensor Cores oferecem uma ampla variedade de precisões: TF32, bfloat16, FP16, FP8 e INT8, para fornecer versatilidade e desempenho incomparáveis.
Os Tensor Cores permitiram que a NVIDIA conquistasse o benchmark MLPerf do setor para inferência.
A HPC é um pilar fundamental da ciência moderna. Para realizar descobertas de próxima geração, os cientistas usam simulações que permitem compreender melhor moléculas complexas para o desenvolvimento de medicamentos, a física para a busca de fontes de energia potenciais e dados atmosféricos para prever e preparar-se para padrões climáticos extremos. Os NVIDIA Tensor Cores oferecem uma ampla variedade de precisões, incluindo FP64, para acelerar a computação científica com a maior exatidão exigida.
O SDK de HPC oferece os compiladores, as bibliotecas e as ferramentas essenciais para o desenvolvimento de aplicações de HPC na plataforma NVIDIA.
Desde a introdução da tecnologia Tensor Core, as GPUs NVIDIA tiveram um aumento de desempenho máximo de 60 vezes, impulsionando a democratização da computação para AI e HPC. A arquitetura NVIDIA Hopper™ avança os Tensor Cores de quarta geração com o Transformer Engine usando uma nova precisão de ponto flutuante de 8 bits (FP8) para oferecer um desempenho 6 vezes melhor em relação à FP16 para treinamento de modelos de trilhões de parâmetros. Aliados a um desempenho 3 vezes melhor usando as precisões TF32, FP64, FP16 e INT8, os Tensor Cores da Hopper oferecem as maiores acelerações para todas as cargas de trabalho.
Os tempos de treinamento para redes de AI de Transformer estão chegando a meses devido ao grande volume de computação matemática. A FP8 na Hopper oferece até 6 vezes mais desempenho que a FP16 na Ampere. A FP8 é usada no Transformer Engine, uma tecnologia de Tensor Core da Hopper projetada especificamente para acelerar o treinamento de modelos de transformer. Os Tensor Cores da Hopper são capazes de aplicar formatos de precisão mistos FP8 e FP16 para acelerar significativamente os cálculos de AI para treinamento de transformer e manter a exatidão. A FP8 também acelera consideravelmente a inferência de grandes modelos de linguagem com um desempenho até 30 vezes melhor que o da Ampere.
As redes e os conjuntos de dados de AI expandem-se exponencialmente, exigindo sempre mais capacidade computacional. A matemática de precisão mais baixa possibilitou grandes acelerações de desempenho, mas exigia algumas alterações de código. A H100 tem suporte para precisão TF32, que funciona como a FP32 e oferece acelerações de AI de até 3 vezes em relação aos Tensor Cores da NVIDIA Ampere™, sem necessidade de alterações de código.
A H100 continua a levar a potência dos Tensor Cores à HPC, com um desempenho inédito. O desempenho de FP64 da H100 é 3 vezes mais rápido em comparação com a geração anterior, acelerando um número ainda maior de aplicações de HPC que exigem cálculos de precisão dupla.
Os Tensor Cores H100 impulsionam a FP16 para deep learning, oferecendo uma aceleração de AI de 3 vezes em comparação aos Tensor Cores da arquitetura NVIDIA Ampere. Isso aumenta significativamente a taxa de transferência e reduz o tempo de convergência.
Apresentados pela primeira vez na NVIDIA Turing™, os Tensor Cores INT8 aceleram significativamente a taxa de transferência de inferência e fornecem grandes aumentos na eficiência. A INT8 da arquitetura NVIDIA Hopper oferece uma taxa de transferência 3 vezes maior comparada à geração anterior de Tensor Cores para implantações de produção. Essa versatilidade permite o desempenho líder do setor para cargas de trabalho de muitos lotes, em tempo real, em data centers de núcleo e no edge.
Os Tensor Cores da arquitetura NVIDIA Ampere ampliam inovações anteriores ao introduzir novas precisões (TF32 e FP64) para acelerar e simplificar a adoção da AI e ampliar o poder dos Tensor Cores para a HPC. Além disso, com suporte para bfloat16, INT8 e INT4, os Tensor Cores de terceira geração criam aceleradores incrivelmente versáteis para treinamento e inferência de AI.
A tecnologia de Tensor Cores da NVIDIA Turing™ conta com computação de multiprecisão para inferência de AI eficiente. Os Tensor Cores da Turing oferecem diversas precisões para treinamento e inferência de deep learning, da FP32 à FP16 e INT8, bem como a INT4, para proporcionar enormes saltos de desempenho em relação às GPUs NVIDIA Pascal™.
Projetada especificamente para deep learning, a primeira geração de Tensor Cores na NVIDIA Volta™ oferece desempenho inovador com matriz de precisão mista de FP16 e FP32, 12 vezes mais teraFLOPS (TFLOPS) de pico para treinamento e 6 vezes mais TFLOPS de pico para inferência em comparação à NVIDIA Pascal. Esse recurso essencial permite que a Volta ofereça um desempenho de treinamento e inferência 3 vezes maior que o da Pascal.
Os Tensor Cores são a fundação da solução completa de data center NVIDIA que incorpora componentes de hardware, rede, software, bibliotecas e modelos e aplicações de AI otimizados do catálogo do NVIDIA NGC™. Como a mais potente plataforma de AI e HPC de ponta a ponta, nossa solução permite que os pesquisadores gerem resultados práticos e implantem soluções na produção em escala.
Especificações preliminares sujeitas a alterações