NVIDIA Triton Inference Server

KI für jede beliebige Anwendung auf jeder beliebigen Plattform bereitstellen, ausführen und skalieren. 

Inferenz für jeden KI-Workload

Mit dem NVIDIA Triton™ Inference Server können Sie Inferenz an trainierten Modellen für maschinelles Lernen oder Deep Learning aus jedem beliebigen Framework auf jedem beliebigen Prozessor – Grafikprozessor, CPU oder Sonstiges – ausführen. Triton Inference Server ist Teil der KI-Plattform von NVIDIA und verfügbar mit NVIDIA AI Enterprise. Es ist eine Open-Source-Software, die die Bereitstellung und Ausführung von KI-Modellen für jeden Workload standardisiert. 

Vorteile von Triton Inference Server entdecken

Unterstützt alle Frameworks für Training und Inferenz

Bereitstellung von KI-Modellen auf jedem wichtigen Framework mit Triton Inference Server – einschließlich TensorFlow, PyTorch, Python, ONNX, NVIDIA® TensorRT™, RAPIDS™ cuML, XGBoost, scikit-learn RandomForest, OpenVINO, Custom C++ und mehr.

Hochleistungs-Inferenz auf jeder beliebigen Plattform

Maximieren Sie den Durchsatz und die Auslastung mit dynamischem Batching, simultaner Ausführung, optimaler Konfiguration sowie Audio- und Video-Streaming. Triton Inference Server unterstützt alle NVIDIA-Grafikprozessoren, x86- und Arm®-CPUs sowie AWS Inferentia. 

Entwickelt für DevOps und MLOps

Integrieren Sie Triton Inference Server in DevOps- und MLOps-Lösungen wie Kubernetes zur Skalierung und Prometheus zur Überwachung. Außerdem kann die Lösung auf allen wichtigen Cloud- und lokalen KI- und MLOps-Plattformen verwendet werden. 

Sicherheit, Verwaltbarkeit und API-Stabilität auf Unternehmensniveau

NVIDIA AI Enterprise, mit NVIDIA Triton Inference Server und Triton Management Service, ist eine sichere, produktionsbereite KI-Softwareplattform, die darauf ausgelegt ist, die Wertschöpfung durch Support, Sicherheit und API-Stabilität zu beschleunigen. 

Erste Schritte mit Triton

NVIDIA AI Enterprise mit Triton für die Produktionsbereitstellung kaufen

Kaufen Sie NVIDIA AI Enterprise, das NVIDIA Triton Inference Server und Triton Management Service für Produktionsinferenz umfasst.

Container und Code für die Entwicklung herunterladen

Triton Inference Server-Container sind verfügbar auf NVIDIA NGC™ und als Open-Source-Code auf GitHub.

Triton Management Service

Automatisieren Sie die Bereitstellung mehrerer Triton Inference Server-Instanzen in Kubernetes mit ressourceneffizienter Modellorchestrierung auf GPUs und CPUs.

Funktionen und Tools

Inferenz für Large Language Models

TensorRT-LLM, im Early Accessverfügbar, ist eine Open-Source-Bibliothek zum Definieren, Optimieren und Ausführen von Large Language Models (LLM) für die Inferenz in der Produktion. Die Kernfunktionalität von FasterTransformer wird zusammen mit dem Deep-Learning-Compiler von TensorRT in einer Open-Source-Python-API beibehalten, um neue Modelle und Anpassungen schnell zu unterstützen.

Modell-Ensembles

Viele moderne KI-Workloads erfordern die Ausführung mehrerer Modelle, häufig mit Vor- und Nachverarbeitungsschritten für jede Abfrage. Triton unterstützt Modell-Ensembles und -Pipelines, kann verschiedene Teile des Ensembles auf der CPU oder dem Grafikprozessor ausführen und ermöglicht mehrere Frameworks innerhalb des Ensembles.

Baumbasierte Modelle

Das Backend der Forest Inference Library (FIL) in Triton bietet Unterstützung für die Hochleistungs-Inferenz von baumbasierten Modellen mit Erklärbarkeit (SHAP-Werte) auf CPUs und GPUs. Es unterstützt Modelle von XGBoost, LightGBM, scikit-learn RandomForest, RAPIDS cuML RandomForest und anderen im Treelite-Format.

NVIDIA PyTriton

PyTriton bietet eine einfache Schnittstelle, mit der Python-Entwickler Triton für beliebige Zwecke einsetzen können – für Modelle, einfache Verarbeitungsfunktionen oder ganze Inferenzpipelines. Diese native Unterstützung für Triton in Python ermöglicht schnelles Prototyping und Testen von Modellen für maschinelles Lernen mit Leistung und Effizienz. Triton wird mit einer einzigen Codezeile aufgerufen und bietet Vorteile wie dynamisches Batching, simultane Modellausführung und Unterstützung für GPU und CPU. Dadurch entfällt die Notwendigkeit, Modell-Repositorys einzurichten und Modellformate zu konvertieren. Vorhandener Inferenz-Pipeline-Code kann ohne Änderungen verwendet werden.

NVIDIA Triton Model Analyzer

Triton Model Analyzer ist ein Tool, das Modellbereitstellungskonfigurationen in Triton Inference Server automatisch auswertet, z. B. Batchgröße, Präzision und Instanzen für simultane Ausführung auf dem Zielprozessor. Es hilft bei der Auswahl der optimalen Konfiguration, um Einschränkungen hinsichtlich Anwendungsqualität (QoS) wie Latenz, Durchsatz und Speicheranforderungen zu erfüllen, und verringert die Zeitdauer, die zum Finden der optimalen Konfiguration erforderlich ist. Dieses Tool unterstützt auch Modell-Ensembles und Multi-Modell-Analysen.

Erfolgsgeschichten

Erfahren Sie, wie Amazon die Kundenzufriedenheit mit NVIDIA-KI verbesserte, indem es die Inferenz um das Fünffache beschleunigte.

Erfahren Sie, wie American Express die Betrugserkennung durch die 50 Mal schnellere Analyse von Millionen von Transaktionen pro Tag verbesserte.

Erfahren Sie, wie Siemens Energy Inspektionen durch KI-basierte Fernüberwachung auf Lecks, anomale Geräusche und vieles mehr verbesserte.

Erfahren Sie, wie Microsoft Teams mithilfe von Triton Inference Server Live-Untertitel und Transkriptionen in mehreren Sprachen mit sehr geringer Latenz optimierte.

Erfahren Sie, wie NIO einen Inferenz-Workflow mit geringer Latenz umsetzte, indem es den NVIDIA Triton Inference Server in die Inferenzpipeline für autonomes Fahren integrierte.

Weitere Ressourcen

Einführung ansehen

Lernen Sie die wichtigsten Funktionen von Triton Inference Server kennen, mit denen Sie KI-Modelle in der Produktion ganz einfach bereitstellen, ausführen und skalieren können.

Das sagen Experten

Sehen Sie sich die GTC-Sessions zu Inferenz und den ersten Schritten mit Triton Inference Server an. 

Technische Blogs erkunden

Lesen Sie Blogs über Triton Inference Server. 

E-Book ansehen

Entdecken Sie die moderne Landschaft der KI-Inferenz, Produktions-Anwendungsfälle von Unternehmen sowie Herausforderungen und Lösungen aus der Praxis. 

Bleiben Sie auf dem Laufenden über die neuesten KI-Inferenz-Nachrichten von NVIDIA.