NVIDIA Triton 관리 서비스

리소스 효율적인 모델 오케스트레이션을 통해 Kubernetes에서 다중 Triton 추론 서버 인스턴스 배포를 자동화합니다.

NVIDIA Triton 관리 서비스란 무엇입니까?

NVIDIA® AI 플랫폼의 일부인 NVIDIA Triton™은 GPU 및 CPU에서 리소스 효율적인 모델 오케스트레이션을 통해 Kubernetes에서 여러 Triton 추론 서버 인스턴스의 배포를 자동화하는 새로운 기능인 Triton 관리 서비스(TMS)를 제공합니다. 이 소프트웨어 애플리케이션은 하나 이상의 AI 모델이 포함된 Triton Inference Server 인스턴스의 배포를 관리하고, 개별 GPU/CPU에 모델을 할당하며, 프레임워크별로 모델을 효율적으로 배치합니다. 엔터프라이즈급 AI 소프트웨어 플랫폼인 NVIDIA AI Enterprise에서만 사용할 수 있는 TMS는 높은 성능과 하드웨어 활용도로 대규모 추론 배포를 가능하게 합니다.

Triton 관리 서비스의 이점 살펴보기

간소화된 배포

Kubernetes에서 Triton 서버 인스턴스의 배포 및 관리를 자동화하고 메모리를 효율적으로 사용할 수 있도록 다양한 프레임워크의 모델 그룹화를 지원합니다.

리소스 극대화

온디맨드로 모델을 로드하고, 임대 시스템을 통해 사용하지 않을 때는 모델을 언로드하며, 가능한 한 많은 모델을 단일 GPU 서버에 배치합니다.

모니터링 및 자동 확장

지연 시간 및 하드웨어 활용률을 기반으로 각 Triton 추론 서버의 상태, 용량 및 자동 확장을 모니터링합니다.

대규모 추론

Triton 관리 서비스를 사용하여 단일 모델에서 수백 개의 모델까지 추론 배포를 효율적으로 관리할 수 있습니다. 온프레미스 또는 모든 퍼블릭 클라우드에 배포하세요.

NVIDIA 뉴스레터를 구독하고 최신 AI 추론 분야 뉴스를 받아보세요.