NUOVI LIVELLI DI COINVOLGIMENTO DEGLI UTENTI

Aumenta la produttività e migliora i tempi di risposta per i carichi di lavoro di inferenza con deep learning.

L'intelligenza artificiale impone la necessità di mantenere il passo con l'aumento costante dei volumi di dati, fornendo risposte sempre più veloci. Realizza i tuoi progetti con NVIDIA® Tesla®, la piattaforma di inferenza per il data center più efficiente e più veloce del mondo. Tesla supporta qualsiasi carico di lavoro di deep learning e offre la soluzione ottimale per l'inferenza, combinando massima produttività, massima efficienza e massima flessibilità per alimentare esperienze basate su IA. TensorRT potenzia le prestazioni delle GPU Tesla su una vasta gamma di applicazioni come streaming di video, riconoscimento vocale e sistemi di raccomandazione e fornisce le basi per l'SDK NVIDIA DeepStream.

INFERENCE SUCCESS STORIES

iFLYTEK

iFLYTEK’s Voice Cloud Platform uses NVIDIA Tesla P4 and P40 GPUs for training and inference, to increase speech recognition accuracy.

VALOSSA

NVIDIA Inception Program startup Valossa is using NVIDIA GPUs to accelerate deep learning and divine viewer behavior from video data.

JD.COM

JD uses NVIDIA AI inference platform to achieve 40X increase in video detection efficiency.

NVIDIA DATA CENTER INFERENCE PLATFORMS

PIATTAFORME DI INFERENZA NVIDIA PER IL DATA CENTER

TESLA V100
Per data center universali

Tesla V100 offre 125 TeraFLOPS di prestazioni di inferenza per GPU. Un singolo server con otto Tesla V100 è in grado di produrre un petaflop di elaborazione.

TESLA P4
Per server scale-out ultra efficienti

Tesla P4 accelera qualsiasi server di scale-out, offrendo efficienza energetica pari a 60 volte quella delle CPU.

TESLA P40
Per server a elevata intensità di inferenza

Tesla P40 offre eccellenti prestazioni in inferenza, precisione INT8 e 24 GB di memoria interna per un'esperienza utente straordinaria.

SOFTWARE DI ELABORAZIONE NVIDIA PER DATA CENTER

NVIDIA TensorRT

NVIDIA TensorRT™ è un acceleratore di inferenza per reti neurali ad alte prestazioni in grado di accelerare le applicazioni come asrecommender, riconoscimento vocale e traduzione automatica di 100 volte rispetto alle CPU. TensorRT offre agli sviluppatori la capacità di ottimizzare i modelli per reti neurali, calibrare per bassa precisione con elevata accuratezza e distribuire i modelli in ambienti di produzione aziendali e data center hyperscale.

SDK DeepStream

NVIDIA DeepStream per Tesla è un SDK per creare applicazioni di analisi video intelligenti e scalabili basate su deep learning per smart city e data center hyperscale. Abbina NVIDIA TensorRT per l'inferenza, Video Codec SDK per la transcodifica, la pre elaborazione e API di gestione dati per sfruttare la potenza delle GPU Tesla. Sulle GPU Tesla P4, ad esempio, è possibile decodificare simultaneamente e analizzare fino a 30 streaming di video in HD in tempo reale.

Kubernetes su GPU NVIDIA

Kubernetes su GPU NVIDIA permette alle imprese di scalare le distribuzioni di training e inferenza su cluster GPU multi-cloud in modo trasparente. Con Kubernetes, le applicazioni HPC e di deep learning possono essere distribuite su cluster GPU multi-cloud in modo istantaneo.

CARATTERISTICHE E VANTAGGI

Un throughput 50 volte più elevato per sostenere carichi di lavoro in costante aumento

Invece, le GPU Tesla V100 basate su Volta offrono ai data center un significativo aumento del throughput per i carichi di lavoro di deep learning, estrapolando intelligenza da volumi esorbitanti di dati. Un server con una singola Tesla V100 è in grado di sostituire fino a 50 server con sola CPU per carichi di lavoro di inferenza in deep learning, garantendo un throughput significativamente superiore con costi di acquisizione molto più bassi.

Efficienza senza precedenti per server scale-out a basso consumo

La GPU Tesla P4 ultra efficiente accelera i server scale-out ottimizzati per densità con un fattore di forma compatto e un design basato su un assorbimento energetico di soli 50/75 W. Garantisce inoltre un'efficienza energetica 52 volte superiore rispetto alle CPU per i carichi di lavoro di inferenza in deep learning, in modo da supportare la massima scalabilità all'interno delle infrastrutture esistenti per sostenere la crescita esponenziale della domanda di servizi basati su IA.

Un motore di decodifica dedicato per i nuovi servizi video basati su intelligenza artificiale

La GPU Tesla P4 è in grado di analizzare fino a 39 video stream in HD in tempo reale, grazie al motore di decodifica hardware accelerato che lavora in parallelo con i core NVIDIA CUDA® per le prestazioni di inferenza. Grazie all'integrazione del deep learning nel flusso di analisi, i clienti possono offrire funzionalità innovative che facilitano la ricerca e altri servizi correlati.

IMPLEMENTAZIONE PIÙ VELOCE CON NVIDIA TensorRT e SDK DeepStream

Scarica la panoramica tecnica sull'inerenza NVIDIA TensorRT è un motore di inferenza per reti neurali ad alte prestazioni per l'implementazione di applicazioni di deep learning in ambienti di produzione. Con TensorRT le reti neurali addestrate di norma a 32 o a 16 bit possono essere ottimizzate per operazioni INT8 a precisione ridotta su Tesla P4 o FP16 su Tesla V100.L' SDK NVIDIA DeepStream sfrutta la potenza delle GPU Tesla per decodificare e analizzare simultaneamente i video in streaming.

SPECIFICHE DELLE PRESTAZIONI

Tesla V100: la GPU universale per il data center Tesla P4 per server scale-out ultra efficienti Tesla P40 per server a elevata intensità di inferenza
Prestazioni a precisione singola (FP32) 14 TeraFLOPS (PCIe)
15,7 TeraFLOPS (SXM2)
5,5 TeraFLOPS 12 TeraFLOPS
Prestazioni a mezza precisione (FP16) 112 TeraFLOPS (PCIe)
125 TeraFLOPS (SXM2)
Operazioni con interi (INT8) 22 TOPS* 47 TOPS*
Memoria della GPU HBM2 16 GB 8 GB 24 GB
Banda di memoria 900 GB/s 192 GB/s 346 GB/s
Interfaccia di sistema/form factor Form factor PCI Express a doppio slot e altezza completa SXM2/NVLink Fattore di forma PCI Express a basso profilo Form factor PCI Express a doppio slot e altezza completa
Alimentazione 250 W (PCIe)
300 W (SXM2)
50 W/75 W 250 W
Motore video con accelerazione hardware 1 motore di decodifica, 2 motori di codifica 1 motore di decodifica, 2 motori di codifica

*Tera-operazioni al secondo con Boost Clock attivato

STORIE DI SUCCESSO RECENTI: INFERENZA

iFLYTEK

La piattaforma cloud vocale iFLYTEK usa le GPU NVIDIA Tesla P4 e P40 per il training e l'inferenza con l'obiettivo di migliorare l'accuratezza del riconoscimento del linguaggio naturale. 

VALOSSA

La start-up Valossa, parte dell'NVIDIA Inception Program, usa le GPU NVIDIA per accelerare il deep learning e Divine Viewer per l'analisi dei dati video. 

JD.COM

JD usa la piattaforma IA di NVIDIA per aumentare di 40 volte l'efficienza di rilevamento nei video. 

OTTIMIZZA LA TUA SOLUZIONE DI INFERENZA CON DEEP LEARNING OGGI STESSO.

Tesla V100, P4 e P40 sono immediatamente disponibili per l'inferenza con deep learning.