Semplificare la distribuzione dei modelli

Usa NVIDIA Triton Inference Server per distribuire facilmente modelli di intelligenza artificiale multi-framework su larga scala.

Un'architettura di sistema completa

NVIDIA Triton Inference Server semplifica la distribuzione di modelli di intelligenza artificiale su larga scala in ambienti di produzione. Triton è un software di inferenza open source che consente ai team di distribuire modelli IA addestrati da qualsiasi framework dallo storage locale, da Google Cloud Platform, AWS S3 o qualsiasi infrastruttura basata su GPU, CPU, data center o Edge. Inizia con Triton estraendo il container dal catalogo NVIDIA NGC, l'hub di software ottimizzato per GPU per il deep learning e il machine learning che accelera la distribuzione ai flussi di lavoro in ambienti di sviluppo.

Vantaggi di Triton Inference Server

Supporto multi-framework

Triton Inference Server supporta tutti i principali framework come TensorFlow, NVIDIA® TensorRT, PyTorch, ONNX Runtime e framework back-end personalizzati. Fornisce ai ricercatori e agli esperti di dati in ambito IA la libertà di scegliere il framework giusto per il loro progetto.

Inferenza ad alte prestazioni

Esegue modelli simultaneamente sulla GPU per massimizzare l'utilizzo, supporta l'inferenza basata su CPU e offre funzionalità avanzate come l'assemblaggio di modelli e l'inferenza in streaming. Aiuta gli sviluppatori a portare rapidamente i modelli in produzione.

Progettato per DevOps e MLOps

Disponibile come container Docker, si integra con Kubernetes per l'orchestrazione e il ridimensionamento, fa parte di Kubeflow ed esporta le metriche di Prometheus per il monitoraggio. Aiuta i reparti IT e DevOps a semplificare la distribuzione dei modelli in produzione.

Il flusso di inferenza

Distribuzione semplificata dei modelli

NVIDIA Triton Inference Server semplifica la distribuzione di modelli di deep learning ai su larga scala in ambienti di produzione, su GPU o CPU. Supporta tutti i framework principali, esegue più modelli simultaneamente per aumentare la velocità effettiva e l'utilizzo e si integra con gli strumenti DevOps per una produzione semplificata e facile da configurare.

Queste funzionalità si combinano per offrire a esperti di dati, sviluppatori e operatori IT la capacità di accelerare lo sviluppo e la distribuzione dell'intelligenza artificiale in ambienti di produzione.

Progettato per la scalabilità

NVIDIA Triton Inference Server offre scalabilità del data center e del cloud con l'inferenza basata su microservizi. Può essere distribuito come microservizio in container per gestire modelli pre o post-elaborazione e deep learning su GPU e CPU. Ogni istanza Triton può essere ridimensionata in modo indipendente in un ambiente simile a Kubernetes per prestazioni ottimali. Un singolo comando Helm da NGC distribuisce Triton su Kubernetes.

Triton può essere utilizzato per distribuire modelli nel cloud, nei data center locali o sull'edge.

Il flusso di inferenza

Inizia con NVIDIA Triton Inference Server su NGC.