Servicio de administración NVIDIA Triton

Automatice la implementación de varias instancias de Triton Inference Server en Kubernetes con una orquestación de modelos eficiente en recursos.

¿Qué es el servicio de administración de NVIDIA Triton?

NVIDIA Triton ™, parte de la plataforma NVIDIA® AI , ofrece una nueva funcionalidad llamada Triton Management Service que automatiza la implementación de múltiples instancias de Triton Inference Server en Kubernetes con orquestación de modelos eficientes en recursos en GPU y CPU. Esta aplicación de software administra la implementación de instancias de Triton Inference Server con uno o más modelos de IA, asigna modelos a GPU/CPU individuales y coloca modelos de manera eficiente por marcos. Triton Management Service permite la implementación de inferencias a gran escala con alto rendimiento y utilización de hardware. Pronto estará disponible exclusivamente con NVIDIA AI Enterprise , una plataforma de software de IA de nivel empresarial.

Explore los beneficios del servicio de administración de Triton

Implementación simplificada

Automatiza la implementación y administración de instancias de servidor Triton en Kubernetes y ayuda a agrupar modelos de diferentes marcos para un uso eficiente de la memoria.

Maximización de recursos

Carga modelos a pedido, descarga modelos cuando no están en uso a través de un sistema de arrendamiento y coloca tantos modelos como sea posible en un solo servidor de GPU.

Monitoreo y Autoescalado

Supervisa el estado, la capacidad y la escalabilidad automática de cada servidor de inferencia Triton en función de la latencia y la utilización del hardware.

Inferencia a gran escala

Utilice Triton Management Service para administrar la implementación de inferencias desde un solo modelo a cientos de modelos de manera eficiente. Implemente en las instalaciones o en cualquier nube pública.

Manténgase actualizado sobre las últimas noticias de inferencia de IA de NVIDIA.