NVIDIA Triton Inference Server

KI für jede beliebige Anwendung auf jeder beliebigen Plattform bereitstellen, ausführen und skalieren.

Einführung
Vorteile
Jetzt starten
Erfolgsgeschichten
Anwender
Ressourcen

Einführung
Vorteile
Jetzt starten
Erfolgsgeschichten
Anwender
Ressourcen

Inferenz für jeden KI-Workload

Mit dem NVIDIA Triton™ Inference Server können Sie Inferenz an trainierten Modellen für maschinelles Lernen oder Deep Learning aus jedem beliebigen Framework auf jedem beliebigen Prozessor – Grafikprozessor, CPU oder Sonstiges – ausführen. Triton Inference Server ist Teil der KI-Plattform von NVIDIA und verfügbar mit NVIDIA AI Enterprise. Es ist eine Open-Source-Software, die die Bereitstellung und Ausführung von KI-Modellen für jeden Workload standardisiert.

Sehen Sie sich das Video an

Vorteile von Triton Inference Server entdecken

Unterstützt alle Frameworks für Training und Inferenz

Bereitstellung von KI-Modellen auf jedem wichtigen Framework mit Triton Inference Server – einschließlich TensorFlow, PyTorch, Python, ONNX, NVIDIA® TensorRT™, RAPIDS™ cuML, XGBoost, scikit-learn RandomForest, OpenVINO, Custom C++ und mehr.

Hochleistungs-Inferenz auf jeder beliebigen Plattform

Maximieren Sie den Durchsatz und die Auslastung mit dynamischem Batching, simultaner Ausführung, optimaler Konfiguration sowie Audio- und Video-Streaming. Triton Inference Server unterstützt alle NVIDIA-Grafikprozessoren, x86- und Arm®-CPUs sowie AWS Inferentia.

Entwickelt für DevOps und MLOps

Integrieren Sie Triton Inference Server in DevOps- und MLOps-Lösungen wie Kubernetes zur Skalierung und Prometheus zur Überwachung. Außerdem kann die Lösung auf allen wichtigen Cloud- und lokalen KI- und MLOps-Plattformen verwendet werden.

Sicherheit, Verwaltbarkeit und API-Stabilität auf Unternehmensniveau

NVIDIA AI Enterprise, mit NVIDIA Triton Inference Server und Triton Management Service, ist eine sichere, produktionsbereite KI-Softwareplattform, die darauf ausgelegt ist, die Wertschöpfung durch Support, Sicherheit und API-Stabilität zu beschleunigen.

Erste Schritte mit Triton

NVIDIA AI Enterprise mit Triton für die Produktionsbereitstellung kaufen

Kaufen Sie NVIDIA AI Enterprise, das NVIDIA Triton Inference Server und Triton Management Service für Produktionsinferenz umfasst.

Testversion von Triton Inference Server auf NVIDIA LaunchPad anfordern

Kontaktieren Sie uns, um mehr über den Kauf von Triton zu erfahren

Container und Code für die Entwicklung herunterladen

Triton Inference Server-Container sind verfügbar auf NVIDIA NGC™ und als Open-Source-Code auf GitHub.

Auf NGC herunterladen

Zugriff auf den Open-Source-Code von Triton Inference Server auf GitHub

Entdecken Sie weitere Ressourcen für die Entwicklung

Triton Management Service

Automatisieren Sie die Bereitstellung mehrerer Triton Inference Server-Instanzen in Kubernetes mit ressourceneffizienter Modellorchestrierung auf GPUs und CPUs.

Mehr erfahren

Funktionen und Tools

Inferenz für Large Language Models

TensorRT-LLM, im Early Accessverfügbar, ist eine Open-Source-Bibliothek zum Definieren, Optimieren und Ausführen von Large Language Models (LLM) für die Inferenz in der Produktion. Die Kernfunktionalität von FasterTransformer wird zusammen mit dem Deep-Learning-Compiler von TensorRT in einer Open-Source-Python-API beibehalten, um neue Modelle und Anpassungen schnell zu unterstützen.

Early Access für TensorRT-LLM anfordern

Modell-Ensembles

Viele moderne KI-Workloads erfordern die Ausführung mehrerer Modelle, häufig mit Vor- und Nachverarbeitungsschritten für jede Abfrage. Triton unterstützt Modell-Ensembles und -Pipelines, kann verschiedene Teile des Ensembles auf der CPU oder dem Grafikprozessor ausführen und ermöglicht mehrere Frameworks innerhalb des Ensembles.

Mehr über Modell-Ensembles erfahren

Baumbasierte Modelle

Das Backend der Forest Inference Library (FIL) in Triton bietet Unterstützung für die Hochleistungs-Inferenz von baumbasierten Modellen mit Erklärbarkeit (SHAP-Werte) auf CPUs und GPUs. Es unterstützt Modelle von XGBoost, LightGBM, scikit-learn RandomForest, RAPIDS cuML RandomForest und anderen im Treelite-Format.

Mehr über baumbasierte Modelle erfahren

NVIDIA PyTriton

PyTriton bietet eine einfache Schnittstelle, mit der Python-Entwickler Triton für beliebige Zwecke einsetzen können – für Modelle, einfache Verarbeitungsfunktionen oder ganze Inferenzpipelines. Diese native Unterstützung für Triton in Python ermöglicht schnelles Prototyping und Testen von Modellen für maschinelles Lernen mit Leistung und Effizienz. Triton wird mit einer einzigen Codezeile aufgerufen und bietet Vorteile wie dynamisches Batching, simultane Modellausführung und Unterstützung für GPU und CPU. Dadurch entfällt die Notwendigkeit, Modell-Repositorys einzurichten und Modellformate zu konvertieren. Vorhandener Inferenz-Pipeline-Code kann ohne Änderungen verwendet werden.

Mehr über PyTriton erfahren

NVIDIA Triton Model Analyzer

Triton Model Analyzer ist ein Tool, das Modellbereitstellungskonfigurationen in Triton Inference Server automatisch auswertet, z. B. Batchgröße, Präzision und Instanzen für simultane Ausführung auf dem Zielprozessor. Es hilft bei der Auswahl der optimalen Konfiguration, um Einschränkungen hinsichtlich Anwendungsqualität (QoS) wie Latenz, Durchsatz und Speicheranforderungen zu erfüllen, und verringert die Zeitdauer, die zum Finden der optimalen Konfiguration erforderlich ist. Dieses Tool unterstützt auch Modell-Ensembles und Multi-Modell-Analysen.

Mehr über Triton Model Analyzer erfahren

Erfolgsgeschichten

Erfahren Sie, wie Amazon die Kundenzufriedenheit mit NVIDIA-KI verbesserte, indem es die Inferenz um das Fünffache beschleunigte.

Mehr erfahren

Erfahren Sie, wie American Express die Betrugserkennung durch die 50 Mal schnellere Analyse von Millionen von Transaktionen pro Tag verbesserte.

Mehr erfahren

Erfahren Sie, wie Siemens Energy Inspektionen durch KI-basierte Fernüberwachung auf Lecks, anomale Geräusche und vieles mehr verbesserte.

Mehr erfahren

Erfahren Sie, wie Microsoft Teams mithilfe von Triton Inference Server Live-Untertitel und Transkriptionen in mehreren Sprachen mit sehr geringer Latenz optimierte.

Mehr erfahren

Erfahren Sie, wie NIO einen Inferenz-Workflow mit geringer Latenz umsetzte, indem es den NVIDIA Triton Inference Server in die Inferenzpipeline für autonomes Fahren integrierte.

Mehr erfahren

Ökosystemintegrationen

Triton ist die erste Wahl für skalierbare, hochleistungsfähige Inferenz. Erhältlich in Alibaba Cloud, Amazon Elastic Kubernetes Service (EKS), Amazon Elastic Container Service (ECS), Amazon SageMaker, Google Kubernetes Engine (GKE), Google Vertex AI, HPE Ezmeral, Microsoft Azure Kubernetes Service (AKS), Azure Machine Learning und Oracle Cloud Infrastructure Data Science Platform.

Weitere Ressourcen

Einführung ansehen

Lernen Sie die wichtigsten Funktionen von Triton Inference Server kennen, mit denen Sie KI-Modelle in der Produktion ganz einfach bereitstellen, ausführen und skalieren können.

Jetzt lesen

Das sagen Experten

Sehen Sie sich die GTC-Sessions zu Inferenz und den ersten Schritten mit Triton Inference Server an.

Jetzt ansehen

Technische Blogs erkunden

Lesen Sie Blogs über Triton Inference Server.

Blogs zu NVIDIA Triton Inference Server erkunden

E-Book ansehen

Entdecken Sie die moderne Landschaft der KI-Inferenz, Produktions-Anwendungsfälle von Unternehmen sowie Herausforderungen und Lösungen aus der Praxis.

Jetzt lesen

Bleiben Sie auf dem Laufenden über die neuesten KI-Inferenz-Nachrichten von NVIDIA.

Anmeldung