Tensor Cores na NVIDIA Volta

A nova geração de deep learning

A GPU NVIDIA® Tesla® V100 tem tecnologia da NVIDIA Volta, uma nova e revolucionária arquitetura de placas de vídeo. Seus multiprocessadores de transmissão são 50% mais eficientes em termos de energia do que a geração anterior da NVIDIA® PascalTM, possibilitando grandes aumentos no desempenho da precisão de pontos flutuantes de 32 bits (FP32) e da precisão de pontos flutuantes de 64 bits (FP64). Mas o maior avanço? A introdução dos Tensor Cores.

Uma revolução em treinamento e inferência

Projetados especificamente para deep learning, os Tensor Cores oferecem desempenho revolucionário: teraflops de pico (TFLOPS) até 12 vezes maiores para treinamento e até seis vezes maiores para inferência. Esse recurso essencial possibilita que a Volta ofereça três vezes mais acelerações de desempenho no treinamento e na inferência em relação à geração anterior. 

Cada 640 Tensor Core da Tesla V100 opera em uma matriz 4x4, e seus caminhos de dados associados são projetados de modo personalizado para aumentar significativamente a taxa de transferência de computação do ponto flutuante com alta eficiência energética.

Eficiência e desempenho acelerados

Treinamento de deep learning em menos de um dia de trabalho

A Volta é equipada com 640 Tensor Cores, cada um com desempenho de 64 operações de fused-multiply-add (FMA) de ponto flutuante por clock. Isso oferece até 125 TFLOPS para aplicativos de treinamento e inferência. Dessa forma, os desenvolvedores podem executar treinamento de deep learning usando uma precisão mista de computação FP16 com acumulado de FP32, atingindo uma aceleração três vezes maior do que a geração anterior e uma convergência para os níveis de precisão esperados de uma rede. Essa aceleração três vezes maior no desempenho é uma inovação essencial da tecnologia Tensor Core. Agora, o deep learning pode acontecer em apenas horas.

Taxa de transferência 47 vezes mais alta do que o servidor de CPU na inferência de deep learning

Para inferência, o Tesla V100 também atinge uma vantagem de desempenho mais do que três vezes maior em relação à geração anterior e é 47 vezes mais rápido do que um servidor baseado em CPU. Usando o acelerador programável de inferência NVIDIA TensorRT, essas acelerações são, em grande parte, devido aos Tensor Cores acelerando o trabalho de inferência com precisão mista.

Um grande impulso do desempenho de computação

Leia o white paper sobre os Tensor Cores e a arquitetura NVIDIA Volta.