Automatice la implementación de varias instancias de Triton Inference Server en Kubernetes con una orquestación de modelos eficiente en recursos.
NVIDIA Triton ™, parte de la plataforma NVIDIA® AI , ofrece una nueva funcionalidad llamada Triton Management Service que automatiza la implementación de múltiples instancias de Triton Inference Server en Kubernetes con orquestación de modelos eficientes en recursos en GPU y CPU. Esta aplicación de software administra la implementación de instancias de Triton Inference Server con uno o más modelos de IA, asigna modelos a GPU/CPU individuales y coloca modelos de manera eficiente por marcos. Triton Management Service permite la implementación de inferencias a gran escala con alto rendimiento y utilización de hardware. Pronto estará disponible exclusivamente con NVIDIA AI Enterprise , una plataforma de software de IA de nivel empresarial.
Automatiza la implementación y administración de instancias de servidor Triton en Kubernetes y ayuda a agrupar modelos de diferentes marcos para un uso eficiente de la memoria.
Carga modelos a pedido, descarga modelos cuando no están en uso a través de un sistema de arrendamiento y coloca tantos modelos como sea posible en un solo servidor de GPU.
Supervisa el estado, la capacidad y la escalabilidad automática de cada servidor de inferencia Triton en función de la latencia y la utilización del hardware.
Utilice Triton Management Service para administrar la implementación de inferencias desde un solo modelo a cientos de modelos de manera eficiente. Implemente en las instalaciones o en cualquier nube pública.
Manténgase actualizado sobre las últimas noticias de inferencia de IA de NVIDIA.