Serviço de gerenciamento NVIDIA Triton

Automatize a implantação de várias instâncias do Triton Inference Server no Kubernetes com orquestração de modelos com uso eficiente de recursos.

O que é o serviço de gerenciamento NVIDIA Triton?

NVIDIA Triton ™, parte da plataforma NVIDIA® AI , oferece uma nova funcionalidade chamada Triton Management Service, que automatiza a implantação de várias instâncias do Triton Inference Server no Kubernetes com orquestração de modelos com eficiência de recursos em GPUs e CPUs. Esta aplicação de software gerencia a implantação de instâncias do Triton Inference Server com um ou mais modelos de AI, aloca modelos para GPUs/CPUs individuais e coloca modelos com eficiência por estruturas. O Triton Management Service permite implantação de inferência em larga escala com alto desempenho e utilização de hardware. Em breve estará disponível exclusivamente com NVIDIA AI Enterprise , uma plataforma de software de AI de nível empresarial.

Explore os benefícios do serviço de gerenciamento da Triton

Implantação simplificada

Automatiza a implantação e o gerenciamento de instâncias do Triton Server no Kubernetes e ajuda a agrupar modelos de diferentes estruturas para uso eficiente da memória.

Maximização de recursos

Carrega modelos sob demanda, descarrega modelos quando não estão em uso por meio de um sistema de concessão e coloca tantos modelos quanto possível em um único servidor GPU.

Monitoramento e escalonamento automático

Monitora a integridade, a capacidade e a escala automática de cada Triton Inference Server com base na latência e na utilização do hardware.

Inferência em grande escala

Use o Triton Management Service para gerenciar a implantação de inferência de um único modelo para centenas de modelos com eficiência. Implante no local ou em qualquer cloud público.

Mantenha-se atualizado sobre as últimas notícias de inferência de AI da NVIDIA.