Piattaforma per inferenza hyperscale NVIDIA TensorRT

Alimentare la nuova ondata di servizi basati su IA

L'intelligenza artificiale impone la necessità di mantenere il passo con l'aumento costante dei volumi di dati, fornendo risposte sempre più veloci. Realizza i tuoi progetti con le GPU NVIDIA® Tesla® e la piattaforma NVIDIA TensorRT, la Piattaforma per Inferenza nel data center più veloce e più efficiente del mondo. Tesla supporta qualsiasi carico di lavoro di deep learning e offre la soluzione ottimale per l'inferenza, combinando massima produttività, massima efficienza e massima flessibilità per alimentare esperienze basate su IA. TensorRT potenzia le prestazioni delle GPU Tesla su una vasta gamma di applicazioni come streaming di video, riconoscimento vocale e sistemi di generazione consigli e fornisce le basi per l'SDK NVIDIA DeepStream.

PIATTAFORME DI INFERENZA NVIDIA PER IL DATA CENTER

TESLA T4

La GPU NVIDIA® T4 accelera carichi di lavoro cloud diversificati, tra cui HPC, training e inferenza su deep learning, machine learning, analisi dei dati e grafica. Basata sulla nuova architettura NVIDIA Turing(™) e inclusa in un fattore di forma PCIe piccolo ad alta efficienza energetica 70 watt, la T4 è ottimizzata per ambienti di elaborazione e server scale-out. In più, include Tensor Core Turing in multi-precisione e i nuovi Core RT, che insieme agli stack software containerizzati e accelerati da NVIDIA GPU Cloud, offrono prestazioni scalabili e rivoluzionarie.

deep-learning-ai-inference-platform-t4-background-2560-0912-ud

TESLA T4

La GPU NVIDIA® Tesla® T4 è l'acceleratore per inferenza più avanzato del mondo. Basato su Tensor Core NVIDIA Turing, la T4 introduce prestazioni di inferenza rivoluzionarie in multi precisione per accelerare il panorama di applicazioni di intelligenza artificiale moderne. Con un fattore di forma ridotto PCIe a risparmio energetico da 75 watt, la T4 è ottimizzata per server scale-out ed è progettata appositamente per garantire inferenza all'avanguardia in tempo reale.

TESLA V100
Per data center universali

Tesla V100 offre 125 TeraFLOPS di prestazioni di inferenza per GPU. Un singolo server con otto Tesla V100 è in grado di produrre un petaflop di elaborazione.

TESLA P4
Per server scale-out ultra efficienti

Tesla P4 accelera qualsiasi server scale-out, offrendo efficienza energetica pari a 60 volte quella delle CPU.

TESLA P40
Per server a elevata intensità di inferenza

Tesla P40 offre eccellenti prestazioni di inferenza, precisione INT8 e 24 GB di memoria interna per un'esperienza utente straordinaria.

SOFTWARE DI ELABORAZIONE NVIDIA PER DATA CENTER

NVIDIA TensorRT

NVIDIA TensorRT è una Piattaforma per Inferenza per reti neurali ad alte prestazioni in grado di accelerare le applicazioni come sistemi di generazione di consigli, riconoscimento vocale e traduzione automatica di 40 volte rispetto alle architetture basate solo su CPU. TensorRT offre la capacità di ottimizzare i modelli per reti neurali, calibrare per bassa precisione con elevata accuratezza e distribuire i modelli in ambienti di produzione aziendali e data center hyperscale.

NVIDIA Triton Inference Server

NVIDIA Triton Inference Server, precedentemente noto come TensorRT Inference Server, è un software open source che semplifica la distribuzione di modelli di deep learning nell'ambiente di produzione. Triton Inference Server consente ai team di distribuire modelli IA addestrati da qualsiasi framework (TensorFlow, PyTorch, TensorRT Plan, Caffe, MXNet o personalizzato) dallo storage locale, dalla piattaforma Google Cloud o da AWS S3 su qualsiasi infrastruttura basata su GPU o CPU. Esegue più modelli simultanei su una singola GPU per massimizzare l'utilizzo e si integra con Kubernetes per organizzazione, metriche e scalabilità automatica.

Kubernetes su GPU NVIDIA

Kubernetes su GPU NVIDIA permette alle imprese di scalare le distribuzioni di training e inferenza su cluster GPU multi-cloud in modo trasparente. Con Kubernetes, le applicazioni HPC e di deep learning possono essere distribuite su cluster GPU multi-cloud in modo istantaneo.

SDK DeepStream

NVIDIA DeepStream per Tesla è un SDK per creare applicazioni di analisi video intelligenti e scalabili basate su deep learning per smart city e data center hyperscale. Abbina gli engine di runtime e ottimizzazione NVIDIA TensorRT per inferenza, Video Codec SDK per la transcodifica, funzionalità pre elaborazione e API di gestione dati per sfruttare la potenza delle GPU Tesla. Sulle GPU Tesla P4, ad esempio, è possibile decodificare simultaneamente e analizzare fino a 30 streaming di video in HD in tempo reale.

CARATTERISTICHE E VANTAGGI

La piattaforma IA per inferenza più avanzata

Tesla T4 basata su Tensor Core NVIDIA Turing offre prestazioni all'avanguardia per il training su deep learning in precisioni FP32, FP16, INT8 e INT4 per l'inferenza. Con 130 TeraOPS (TOPS) in INT8 e 260 TOPS in INT4, la T4 è la più efficiente al mondo in termini di inferenza, fino a 40 volte superiore rispetto alle CPU. Tesla T4 è in grado di analizzare fino a 39 video stream in HD simultanei in tempo reale, utilizzando engine di trascodifica video accelerati con hardware dedicato. Gli sviluppatori possono offrire nuovi livelli di funzionalità intelligenti e innovative, utilizzando l'inferenza che agevola la ricerca video e altri servizi correlati. E con tutte queste prestazioni in soli 70 watt (W) di consumi, Tesla T4 è la soluzione di inferenza ideale per server scale-out a livello periferico.

Un throughput 24 volte più elevato per sostenere carichi di lavoro in costante aumento

Le GPU Tesla V100 basate su NVIDIA Volta™ offrono ai data center un significativo aumento del throughput per i carichi di lavoro di deep learning, estrapolando intelligence da volumi esorbitanti di dati. Un server con una singola Tesla V100 è in grado di sostituire fino a 50 server con sola CPU per carichi di lavoro di inferenza in deep learning, garantendo un throughput significativamente superiore con costi di acquisizione molto più bassi.

Massimizzare le prestazioni con NVIDIA TensorRT e SDK DeepStream

Gli engine di runtime e ottimizzazione NVIDIA TensorRT offrono elevate prestazioni a bassa latenza per applicazioni come sistemi di generazione di consigli, riconoscimento vocale e traduzione automatica. Con TensorRT, i modelli addestrati in dati a 32-bit o 16-bit possono essere ottimizzati per operazione in precisione INT8 su Tesla T4 e P4 o in FP16 su Tesla V100. L'SDK NVIDIA DeepStream sfrutta la potenza delle GPU Tesla per decodificare e analizzare simultaneamente i video in streaming.

L'inferenza che massimizza l'utilizzo della GPU e supporta tutti i principali framework

Il NVIDIA Triton Inference Server offre inferenza per il data center ad alte prestazioni e aiuta a sfruttare al massimo le GPU. Disponibile in un container pronto all'uso, il Server per Inferenza NVIDIA TensorRT è un microservizio che consente di eseguire inferenza tramite API per qualsiasi combinazione di modelli da Caffe2, NVIDIA TensorRT, TensorFlow e qualsiasi framework che supporti lo standard ONNX su una o più GPU.

Specifiche delle prestazioni

Tesla T4: l'acceleratore per inferenza più avanzato del mondo Tesla V100: la GPU universale per il data center Tesla P4 per server scale-out ultra efficienti Tesla P40 per server a elevata intensità di inferenza
Prestazioni a precisione singola (FP32) 8,1 TFLOPS 14 teraflops (PCIe)
15,7 teraflops (SXM2)
5,5 TeraFLOPS 12 TeraFLOPS
Prestazioni a mezza precisione (FP16) 65 FP16 TFLOPS 112 teraflops (PCIe)
125 teraflops (SXM2)
Operazioni con interi (INT8) 130 INT8 TOPS 22 TOPS* 47 TOPS*
Memoria della GPU 16 GB 32/16GB HBM2 8GB 24GB
Banda di memoria 320GB/s 900GB/s 192GB/s 346GB/s
Interfaccia di sistema/fattore di forma Fattore di forma PCI Express a basso profilo Fattore di forma PCI Express a doppio slot e altezza completa SXM2/NVLink Fattore di forma PCI Express a basso profilo Fattore di forma PCI Express a doppio slot e piena altezza
Alimentazione 70 W 250 W (PCIe)
300 W (SXM2)
50 W/75 W 250 W
Engine video con accelerazione hardware 1 engine di decodifica, 2 engine di codifica 1 motore di decodifica, 2 motori di codifica 1 motore di decodifica, 2 motori di codifica

*Tera-operazioni al secondo con Boost Clock attivato

TESTIMONIANZE DEI CLIENTI

Ricerca visiva più veloce e intelligente

Bing usa la tecnologia GPU NVIDIA per accelerare il rilevamento di oggetti e fornire risultati più pertinenti in tempo reale.

Elaborazione di immagini e video

Aumenta l'efficienza del throughput nei carichi di lavoro di elaborazione immagini e video con NVIDIA DeepStream SDK e le GPU Tesla.

Sistema consigliato

Migliora la precisione delle previsioni con le app di filtraggio collaborativo neurale basate su deep learning eseguite su piattaforme per GPU NVIDIA.

OTTIMIZZA LA TUA SOLUZIONE DI INFERENZA CON DEEP LEARNING OGGI STESSO.

Tesla V100, T4 e P40 sono immediatamente disponibili per l'inferenza con deep learning.