Tensor Cores in NVIDIA Volta

La nuova generazione del deep learning

Le GPU NVIDIA® Tesla® sono alimentate da Tensor Core, una tecnologia rivoluzionaria che offre prestazioni all'avanguardia con intelligenza artificiale. I Tensor Core possono accelerare operazioni di ampia matrice, che sono al cuore dell'IA, ed eseguire moltiplicazioni di matrice a precisione mista accumulando calcoli in una singola operazione. Con centinaia di Tensor Core funzionanti in parallelo in una sola GPU NVIDIA, questo significa aumentare enormemente la produttività e l'efficienza.

NVIDIA T4 alimentata da Tensor Core Turing

PRESTAZIONI DI INFERENZA ALL'AVANGUARDIA


NVIDIA T4 basata su Tensor Core Turing

Tesla T4 presenta la tecnologia NVIDIA Turing Tensor Core con elaborazione in multi precisione per l'inferenza con IA più avanzata del mondo. I Tensor Core Turing offrono una gamma completa di precisioni per l'inferenza, da FP32 a FP16 fino INT8 e INT4, per garantire enormi passi avanti nelle prestazioni rispetto alle GPU NVIDIA Pascal®.

LA PIATTAFORMA DI DEEP LEARNING PIÙ AVANZATA

T4 garantisce prestazioni all'avanguardia per il training su deep learning in FP32, FP16, INT8 e precisioni INT4 per l'inferenza. Con 130 teraOPS (TOPS) di INT8 e 260 TOPS di INT4, T4 è la più efficiente al mondo in termini di inferenza, fino a 40 volte superiore rispetto alle CPU con solo il 60% del consumo energetico. Con un consumo di soli 75 watt (W), è la soluzione ideale per server scale-out a livello periferico.

T4 INFERENCE PERFORMANCE

Resnet50

DeepSpeech2

GNMT

GPU NVIDIA V100 GPU basata su Tensor Core Volta

LA PIÙ ELEVATA PRODUTTIVITÀ AL MONDO CON IL DEEP LEARNING


GPU NVIDIA V100 GPU basata su Tensor Core Volta

Progettati appositamente per il deep learning, i Tensor Core di prima generazione in Volta offrono prestazioni all'avanguardia con moltiplicazioni di matrici in precisione mista in FP16 e FP32, fino a 12 volte i picchi di teraflops (TFLOPS) per il training e 6 volte i picchi TFLOPS per l'inferenza rispetto alla soluzione di precedente generazione NVIDIA Pascal™. Questa straordinaria capacità permette a Volta di accelerare le prestazioni fino a 3 volte nel training e nell'inferenza rispetto alla tecnologia Pascal.

Ciascuno dei 640 Tensor Core della V100 opera su una matrice 4x4 e i percorsi di dati associati sono personalizzabili per potenziare l'elaborazione in virgola mobile con l'efficienza energetica più elevata al mondo.

UN'INNOVAZIONE DIROMPENTE NELL'AMBITO DEL TRAINING E DELL'INFERENZA

Deep Learning Training in Less Than a Workday

Volta è dotata di 640 Tensor Core, ciascuno in grado di eseguire 64 operazioni FMA (fused-multiply-add) a virgola mobile per clock. Questo garantisce fino a 125 TFLOPS per le applicazioni di training e inferenza. Gli sviluppatori possono quindi eseguire sessioni di training su deep learning utilizzando una precisione mista di elaborazione FP16 e accumulazione FP32, ottenendo velocità 3 volte superiori rispetto alla generazione precedente e la conformità ai livelli di precisione previsti dalla rete.

La velocità delle prestazioni 3 volte superiore è un'innovazione fondamentale della tecnologia Tensor Core. Ora il deep learning può essere effettuato in poche ore.

27X Higher Throughput than CPU Server on Deep Learning Inference

In termini di inferenza, Tesla V100 offre prestazioni 3 volte superiori rispetto alla precedente generazione ed è 47 volte più veloce rispetto a un server basato su CPU. Con NVIDIA TensorRT™ Programmable Inference Accelerator, queste accelerazioni sono dovute in gran parte ai Tensor Core che velocizzano i processi di inferenza utilizzando la precisione mista.

Un avanzamento straordinario nelle prestazioni di elaborazione

Leggi il white paper su Tensor Core e l'architettura NVIDIA Volta.