NVIDIA Triton Management Service

Automatisieren Sie die Bereitstellung mehrerer Triton Inference Server-Instanzen in Kubernetes mit ressourcenschonender Modellorchestrierung. 

Was ist der NVIDIA Triton Management Service?

NVIDIA Triton™, Teil der KI-Plattform von NVIDIA®, bietet eine neue Funktion namens Triton Management Service, die die Bereitstellung mehrerer Triton Inference Server-Instanzen in Kubernetes mit ressourcenschonender Modellorchestrierung auf Grafikprozessoren und CPUs automatisiert. Diese Softwareanwendung verwaltet die Bereitstellung von Triton Inference Server-Instanzen mit einem oder mehreren KI-Modellen, weist Modelle einzelnen Grafikprozessoren/CPUs zu und stellt Modelle effizient nach Frameworks zusammen. Der Triton Management Service ermöglicht eine umfangreiche Bereitstellung von Inferenzen mit hoher Leistung und Hardwareauslastung. Er ist bald exklusiv mit NVIDIA AI Enterpriseerhältlich, einer KI-Softwareplattform für Unternehmen.

Entdecken Sie die Vorteile des Triton Management Service

Vereinfachte Bereitstellung

Automatisiert die Bereitstellung und Verwaltung von Triton Server-Instanzen auf Kubernetes und unterstützt die Gruppierung von Modellen aus verschiedenen Frameworks für eine effiziente Speichernutzung.

Ressourcenmaximierung

Lädt Modelle bei Bedarf, entlädt Modelle, wenn sie nicht in Gebrauch sind, über ein Leasing-System und platziert so viele Modelle wie möglich auf einem einzelnen GPU-Server.

Überwachung und Autoskalierung

Überwacht den Zustand, die Kapazität und die Autoskalierung von jedem Triton Inference Server basierend auf Latenz und Hardwareauslastung.

Umfangreiche Inferenz

Verwendet den Triton Management Service, um die Bereitstellung von Inferenzen von einem einzelnen Modell bis hin zu Hunderten von Modellen effizient zu verwalten. Lokal oder in einer öffentlichen Cloud bereitstellen.

Bleiben Sie mit Neuigkeiten zu KI-Inferenzen von NVIDIA immer auf dem Laufenden.