Automatize a implantação de várias instâncias do Triton Inference Server no Kubernetes com orquestração de modelos com uso eficiente de recursos.
NVIDIA Triton ™, parte da plataforma NVIDIA® AI , oferece uma nova funcionalidade chamada Triton Management Service, que automatiza a implantação de várias instâncias do Triton Inference Server no Kubernetes com orquestração de modelos com eficiência de recursos em GPUs e CPUs. Esta aplicação de software gerencia a implantação de instâncias do Triton Inference Server com um ou mais modelos de AI, aloca modelos para GPUs/CPUs individuais e coloca modelos com eficiência por estruturas. O Triton Management Service permite implantação de inferência em larga escala com alto desempenho e utilização de hardware. Em breve estará disponível exclusivamente com NVIDIA AI Enterprise , uma plataforma de software de AI de nível empresarial.
Automatiza a implantação e o gerenciamento de instâncias do Triton Server no Kubernetes e ajuda a agrupar modelos de diferentes estruturas para uso eficiente da memória.
Carrega modelos sob demanda, descarrega modelos quando não estão em uso por meio de um sistema de concessão e coloca tantos modelos quanto possível em um único servidor GPU.
Monitora a integridade, a capacidade e a escala automática de cada Triton Inference Server com base na latência e na utilização do hardware.
Use o Triton Management Service para gerenciar a implantação de inferência de um único modelo para centenas de modelos com eficiência. Implante no local ou em qualquer cloud público.
Mantenha-se atualizado sobre as últimas notícias de inferência de AI da NVIDIA.