Tensor Cores NVIDIA

Aceleração Sem Precedentes para HPC e AI

Os Tensor Cores permitem computação de precisão mista, adaptando dinamicamente os cálculos para acelerar o rendimento e preservar a precisão. A última geração expande essas acelerações para uma gama completa de cargas de trabalho. Desde acelerações de 10 vezes no treinamento de AI com o Tensor Float 32 (TF32), uma nova e revolucionária precisão, a reforços de 2,5 vezes para computação de alto desempenho com floating point 64 (FP64), os NVIDIA Tensor Cores oferecem novos recursos para todas as cargas de trabalho.

Treinamento Revolucionário em AI

Treinamento Revolucionário em AI

Os modelos de AI continuam a explodir em complexidade à medida que enfrentam desafios de próximo nível, como AI conversacional precisa e sistemas profundos de recomendação. Modelos de AI de conversação como Megatron são centenas de vezes maiores e mais complexos que modelos de classificação de imagem como ResNet-50. O treinamento desses modelos massivos na precisão do FP32 pode levar dias ou até semanas. Os Tensor Cores nas GPUs NVIDIA oferecem um desempenho superior em ordem de magnitude com precisões reduzidas, como TF32 e FP16. E com suporte direto em estruturas nativas via bibliotecas NVIDIA CUDA-X, a implementação é automática, o que reduz significativamente os tempos de treinamento para convergência, mantendo a precisão.

Os Tensor Cores permitiram que a NVIDIA ganhasse o MLPerf 0.6, o primeiro benchmark da indústria de AI para treinamento.

Inovação em Inferência de AI

Inovação em Inferência de AI

Um excelente acelerador de inferência de AI precisa não apenas oferecer um ótimo desempenho, mas também a versatilidade para acelerar diversas redes neurais, juntamente com a capacidade de programação para permitir que os desenvolvedores criem novas. Baixa latência com alto rendimento e maximização da utilização são os requisitos de desempenho mais importantes para implantar a inferência de maneira confiável. Os Tensor Cores da NVIDIA oferecem uma ampla gama de precisões - TF32, bfloat16, FP16, INT8 e INT4 - para fornecer versatilidade e desempenho incomparáveis.

Os Tensor Cores permitiram que a NVIDIA ganhasse o MLPerf Inference 0.5, o primeiro benchmark de inferência da indústria de AI.

HPC Avançado

HPC Avançado

HPC é um pilar fundamental da ciência moderna. Para desbloquear descobertas da próxima geração, os cientistas usam simulações para entender melhor moléculas complexas para descoberta de medicamentos, física para fontes potenciais de energia e dados atmosféricos para prever melhor e se preparar para padrões climáticos extremos. Os Tensor Cores da NVIDIA oferecem uma gama completa de precisão, incluindo FP64, para acelerar a computação científica com a mais alta precisão necessária.

NVIDIA HPC SDK é um conjunto abrangente de compiladores, bibliotecas e ferramentas essenciais para o desenvolvimento de aplicações HPC para a plataforma NVIDIA.

Tensor Cores A100

Terceira Geração

A tecnologia NVIDIA Tensor Core trouxe acelerações significativas à AI, diminuindo o tempo de treinamento de semanas para horas e fornecendo ampla aceleração à inferência. A arquitetura NVIDIA Ampere fornece um enorme aumento de desempenho e fornece novas precisões para cobrir todo o espectro exigido pelos pesquisadores - TF32, FP64, FP16, INT8 e INT4 - acelerando e simplificando a adoção da AI e estendendo o poder do NVIDIA Tensor Cores ao HPC.

  • TF32
  • FP64
  • FP16
  • INT8
Tensor Float 32

Tensor Float 32

À medida que as redes e conjuntos de dados de AI continuam a se expandir exponencialmente, seu apetite por computação também cresce. A matemática de menor precisão trouxe grandes acelerações de desempenho, mas eles historicamente exigiram algumas alterações no código. O A100 traz uma nova precisão, TF32, que funciona exatamente como o FP32, oferecendo acelerações de até 20 vezes para AI, sem exigir nenhuma alteração no código.

Tensor Cores FP64

Tensor Cores FP64

O A100 traz o poder dos Tensor Cores para HPC, fornecendo o maior marco desde a introdução da computação de GPU de dupla precisão para HPC. Ao habilitar as operações de matriz na precisão do FP64, toda uma gama de aplicações HPC que precisam de matemática com precisão dupla pode agora obter um aumento de 2,5 vezes no desempenho e na eficiência em comparação com as gerações anteriores de GPUs.

TENSOR CORES FP16

TENSOR CORES FP16

Os Tensor Cores A100 aprimoram o FP16 para deep learning, proporcionando uma aceleração de 2 vezes em comparação com a NVIDIA Volta™ para AI. Isso aumenta significativamente o rendimento e reduz o tempo para a convergência.

Precisão INT8

Precisão INT8

Introduzido pela primeira vez na NVIDIA Turing, o INT8 Tensor Core acelera significativamente o rendimento da inferência e proporciona enormes aumentos de eficiência. O INT8 na arquitetura Ampere da NVIDIA oferece 10 vezes a taxa de transferência comparável de Volta para implantações de produção. Essa versatilidade permite o desempenho líder do setor para cargas de trabalho de lotes altos e em tempo real nos data centers principais e no edge

Turing Tensor Cores

Segunda Geração

A tecnologia NVIDIA Turing™ Tensor Core apresenta computação de precisão múltipla para inferência de AI eficiente. Os Tensor Cores de Turing fornecem uma variedade de precisões para treinamento e inferência de deep learning, do FP32 ao FP16 ao INT8, bem como ao INT4, para fornecer saltos gigantescos no desempenho das GPUs NVIDIA Pascal™.

Turing Tensor Cores
Volta Tensor Cores

Volta Tensor Cores

Primeira Geração

Projetados especificamente para deep learning, os Tensor Cores de primeira geração no NVIDIA Volta™ oferecem desempenho inovador com matriz de precisão mista multiplicada no FP16 e FP32 - teraFLOPS de pico até 12 vezes mais altos (TFLOPS) para treinamento e TFLOPS de pico 6 vezes maior para inferência sobre a NVIDIA Pascal. Esse recurso essencial permite que Volta forneça acelerações de 3 vezes no desempenho em treinamento e inferência sobre Pascal.

A Mais Poderosa e Completa Plataforma de Data Center de AI e HPC

Os Tensor Cores são componentes essenciais da solução completa de data center da NVIDIA que incorpora hardware, rede, software, bibliotecas e modelos e aplicações de AI otimizados da NGC. A mais poderosa e completa plataforma de AI e HPC permite que os pesquisadores entreguem resultados do mundo real e implantem soluções na produção em escala.

NVIDIA A100 NVIDIA Turing NVIDIA Volta
Precisões Suportadas pelo Tensor Core FP64, TF32, bfloat16, FP16, INT8, INT4, INT1 FP16, INT8, INT4, INT1 FP16
Precisões Suportadas pelo CUDA® Core FP64, FP32, FP16, bfloat16, INT8 FP64, FP32, FP16, INT8 FP64, FP32, FP16, INT8

Explore os NVIDIA Tensor Cores

Participe deste webinar para saber o que é necessário para obter o desempenho ideal nas GPUs NVIDIA Tensor Core.