This site requires Javascript in order to view all its content. Please enable Javascript in order to access all the functionality of this web site. Here are the instructions how to enable JavaScript in your web browser.

Piattaforma per inferenza hyperscale NVIDIA TensorRT

Alimentare la nuova ondata di servizi basati su IA

L'intelligenza artificiale impone la necessità di mantenere il passo con l'aumento costante dei volumi di dati, fornendo risposte sempre più veloci. Realizza i tuoi progetti con le GPU NVIDIA^® Tesla^® e la piattaforma NVIDIA TensorRT, la Piattaforma per Inferenza nel data center più veloce e più efficiente del mondo. Tesla supporta qualsiasi carico di lavoro di deep learning e offre la soluzione ottimale per l'inferenza, combinando massima produttività, massima efficienza e massima flessibilità per alimentare esperienze basate su IA. TensorRT potenzia le prestazioni delle GPU Tesla su una vasta gamma di applicazioni come streaming di video, riconoscimento vocale e sistemi di generazione consigli e fornisce le basi per l'SDK NVIDIA DeepStream.

Registrati per scaricare la panoramica tecnica sull'inferenza

Scarica l'infografica sull'inferenza

Scarica il white paper di PLASTER

Guarda il video sull'inferenza nel data center

PIATTAFORME DI INFERENZA NVIDIA PER IL DATA CENTER

TESLA T4

La GPU NVIDIA^® T4 accelera carichi di lavoro cloud diversificati, tra cui HPC, training e inferenza su deep learning, machine learning, analisi dei dati e grafica. Basata sulla nuova architettura NVIDIA Turing(™) e inclusa in un fattore di forma PCIe piccolo ad alta efficienza energetica 70 watt, la T4 è ottimizzata per ambienti di elaborazione e server scale-out. In più, include Tensor Core Turing in multi-precisione e i nuovi Core RT, che insieme agli stack software containerizzati e accelerati da NVIDIA GPU Cloud, offrono prestazioni scalabili e rivoluzionarie.

deep-learning-ai-inference-platform-t4-background-2560-0912-ud

TESLA T4

La GPU NVIDIA^® Tesla^® T4 è l'acceleratore per inferenza più avanzato del mondo. Basato su Tensor Core NVIDIA Turing, la T4 introduce prestazioni di inferenza rivoluzionarie in multi precisione per accelerare il panorama di applicazioni di intelligenza artificiale moderne. Con un fattore di forma ridotto PCIe a risparmio energetico da 75 watt, la T4 è ottimizzata per server scale-out ed è progettata appositamente per garantire inferenza all'avanguardia in tempo reale.

TESLA V100
Per data center universali

Tesla V100 offre 125 TeraFLOPS di prestazioni di inferenza per GPU. Un singolo server con otto Tesla V100 è in grado di produrre un petaflop di elaborazione.

Scheda tecnica di Tesla V100 (PDF)

TESLA P4
Per server scale-out ultra efficienti

Tesla P4 accelera qualsiasi server scale-out, offrendo efficienza energetica pari a 60 volte quella delle CPU.

Scheda tecnica di Tesla P4 (PDF)

TESLA P40
Per server a elevata intensità di inferenza

Tesla P40 offre eccellenti prestazioni di inferenza, precisione INT8 e 24 GB di memoria interna per un'esperienza utente straordinaria.

Scheda tecnica di Tesla P40 (PDF)

SOFTWARE DI ELABORAZIONE NVIDIA PER DATA CENTER

NVIDIA TensorRT

NVIDIA TensorRT è una Piattaforma per Inferenza per reti neurali ad alte prestazioni in grado di accelerare le applicazioni come sistemi di generazione di consigli, riconoscimento vocale e traduzione automatica di 40 volte rispetto alle architetture basate solo su CPU. TensorRT offre la capacità di ottimizzare i modelli per reti neurali, calibrare per bassa precisione con elevata accuratezza e distribuire i modelli in ambienti di produzione aziendali e data center hyperscale.

NVIDIA Triton Inference Server

NVIDIA Triton Inference Server, precedentemente noto come TensorRT Inference Server, è un software open source che semplifica la distribuzione di modelli di deep learning nell'ambiente di produzione. Triton Inference Server consente ai team di distribuire modelli IA addestrati da qualsiasi framework (TensorFlow, PyTorch, TensorRT Plan, Caffe, MXNet o personalizzato) dallo storage locale, dalla piattaforma Google Cloud o da AWS S3 su qualsiasi infrastruttura basata su GPU o CPU. Esegue più modelli simultanei su una singola GPU per massimizzare l'utilizzo e si integra con Kubernetes per organizzazione, metriche e scalabilità automatica.

Kubernetes su GPU NVIDIA

Kubernetes su GPU NVIDIA permette alle imprese di scalare le distribuzioni di training e inferenza su cluster GPU multi-cloud in modo trasparente. Con Kubernetes, le applicazioni HPC e di deep learning possono essere distribuite su cluster GPU multi-cloud in modo istantaneo.

SDK DeepStream

NVIDIA DeepStream per Tesla è un SDK per creare applicazioni di analisi video intelligenti e scalabili basate su deep learning per smart city e data center hyperscale. Abbina gli engine di runtime e ottimizzazione NVIDIA TensorRT per inferenza, Video Codec SDK per la transcodifica, funzionalità pre elaborazione e API di gestione dati per sfruttare la potenza delle GPU Tesla. Sulle GPU Tesla P4, ad esempio, è possibile decodificare simultaneamente e analizzare fino a 30 streaming di video in HD in tempo reale.

CARATTERISTICHE E VANTAGGI

La piattaforma IA per inferenza più avanzata

Tesla T4 basata su Tensor Core NVIDIA Turing offre prestazioni all'avanguardia per il training su deep learning in precisioni FP32, FP16, INT8 e INT4 per l'inferenza. Con 130 TeraOPS (TOPS) in INT8 e 260 TOPS in INT4, la T4 è la più efficiente al mondo in termini di inferenza, fino a 40 volte superiore rispetto alle CPU. Tesla T4 è in grado di analizzare fino a 39 video stream in HD simultanei in tempo reale, utilizzando engine di trascodifica video accelerati con hardware dedicato. Gli sviluppatori possono offrire nuovi livelli di funzionalità intelligenti e innovative, utilizzando l'inferenza che agevola la ricerca video e altri servizi correlati. E con tutte queste prestazioni in soli 70 watt (W) di consumi, Tesla T4 è la soluzione di inferenza ideale per server scale-out a livello periferico.

Un throughput 24 volte più elevato per sostenere carichi di lavoro in costante aumento

Le GPU Tesla V100 basate su NVIDIA Volta™ offrono ai data center un significativo aumento del throughput per i carichi di lavoro di deep learning, estrapolando intelligence da volumi esorbitanti di dati. Un server con una singola Tesla V100 è in grado di sostituire fino a 50 server con sola CPU per carichi di lavoro di inferenza in deep learning, garantendo un throughput significativamente superiore con costi di acquisizione molto più bassi.

Massimizzare le prestazioni con NVIDIA TensorRT e SDK DeepStream

Gli engine di runtime e ottimizzazione NVIDIA TensorRT offrono elevate prestazioni a bassa latenza per applicazioni come sistemi di generazione di consigli, riconoscimento vocale e traduzione automatica. Con TensorRT, i modelli addestrati in dati a 32-bit o 16-bit possono essere ottimizzati per operazione in precisione INT8 su Tesla T4 e P4 o in FP16 su Tesla V100. L'SDK NVIDIA DeepStream sfrutta la potenza delle GPU Tesla per decodificare e analizzare simultaneamente i video in streaming.

L'inferenza che massimizza l'utilizzo della GPU e supporta tutti i principali framework

Il NVIDIA Triton Inference Server offre inferenza per il data center ad alte prestazioni e aiuta a sfruttare al massimo le GPU. Disponibile in un container pronto all'uso, il Server per Inferenza NVIDIA TensorRT è un microservizio che consente di eseguire inferenza tramite API per qualsiasi combinazione di modelli da Caffe2, NVIDIA TensorRT, TensorFlow e qualsiasi framework che supporti lo standard ONNX su una o più GPU.

Specifiche delle prestazioni

	Tesla T4: l'acceleratore per inferenza più avanzato del mondo	Tesla V100: la GPU universale per il data center	Tesla P4 per server scale-out ultra efficienti	Tesla P40 per server a elevata intensità di inferenza
Prestazioni a precisione singola (FP32)	8,1 TFLOPS	14 teraflops (PCIe) 15,7 teraflops (SXM2)	5,5 TeraFLOPS	12 TeraFLOPS
Prestazioni a mezza precisione (FP16)	65 FP16 TFLOPS	112 teraflops (PCIe) 125 teraflops (SXM2)	—	—
Operazioni con interi (INT8)	130 INT8 TOPS	—	22 TOPS*	47 TOPS*
Memoria della GPU	16 GB	32/16GB HBM2	8GB	24GB
Banda di memoria	320GB/s	900GB/s	192GB/s	346GB/s
Interfaccia di sistema/fattore di forma	Fattore di forma PCI Express a basso profilo	Fattore di forma PCI Express a doppio slot e altezza completa SXM2/NVLink	Fattore di forma PCI Express a basso profilo	Fattore di forma PCI Express a doppio slot e piena altezza
Alimentazione	70 W	250 W (PCIe) 300 W (SXM2)	50 W/75 W	250 W
Engine video con accelerazione hardware	1 engine di decodifica, 2 engine di codifica	—	1 motore di decodifica, 2 motori di codifica	1 motore di decodifica, 2 motori di codifica

*Tera-operazioni al secondo con Boost Clock attivato

TESTIMONIANZE DEI CLIENTI

Ricerca visiva più veloce e intelligente

Bing usa la tecnologia GPU NVIDIA per accelerare il rilevamento di oggetti e fornire risultati più pertinenti in tempo reale.

Scopri di più

Elaborazione di immagini e video

Aumenta l'efficienza del throughput nei carichi di lavoro di elaborazione immagini e video con NVIDIA DeepStream SDK e le GPU Tesla.

Leggi il blog

Sistema consigliato

Migliora la precisione delle previsioni con le app di filtraggio collaborativo neurale basate su deep learning eseguite su piattaforme per GPU NVIDIA.

Leggi il blog

LEGGI ALTRE SUCCESS STORY

OTTIMIZZA LA TUA SOLUZIONE DI INFERENZA CON DEEP LEARNING OGGI STESSO.

Tesla V100, T4 e P40 sono immediatamente disponibili per l'inferenza con deep learning.

DOVE ACQUISTARE

Piattaforma per inferenza hyperscale NVIDIA TensorRT

Alimentare la nuova ondata di servizi basati su IA

PIATTAFORME DI INFERENZA NVIDIA PER IL DATA CENTER

TESLA T4

TESLA T4

TESLA V100Per data center universali

TESLA P4Per server scale-out ultra efficienti

TESLA P40Per server a elevata intensità di inferenza

SOFTWARE DI ELABORAZIONE NVIDIA PER DATA CENTER

NVIDIA TensorRT

NVIDIA Triton Inference Server

Kubernetes su GPU NVIDIA

SDK DeepStream

CARATTERISTICHE E VANTAGGI

La piattaforma IA per inferenza più avanzata

Un throughput 24 volte più elevato per sostenere carichi di lavoro in costante aumento

Massimizzare le prestazioni con NVIDIA TensorRT e SDK DeepStream

L'inferenza che massimizza l'utilizzo della GPU e supporta tutti i principali framework

Specifiche delle prestazioni

TESTIMONIANZE DEI CLIENTI

Ricerca visiva più veloce e intelligente

Elaborazione di immagini e video

Sistema consigliato

OTTIMIZZA LA TUA SOLUZIONE DI INFERENZA CON DEEP LEARNING OGGI STESSO.

TESLA V100
Per data center universali

TESLA P4
Per server scale-out ultra efficienti

TESLA P40
Per server a elevata intensità di inferenza