리소스 효율적인 모델 오케스트레이션을 통해 Kubernetes에서 다중 Triton 추론 서버 인스턴스 배포를 자동화합니다.
NVIDIA® AI 플랫폼의 일부인 NVIDIA Triton™은 GPU 및 CPU에서 리소스 효율적인 모델 오케스트레이션을 통해 Kubernetes에서 여러 Triton 추론 서버 인스턴스의 배포를 자동화하는 새로운 기능인 Triton 관리 서비스(TMS)를 제공합니다. 이 소프트웨어 애플리케이션은 하나 이상의 AI 모델이 포함된 Triton Inference Server 인스턴스의 배포를 관리하고, 개별 GPU/CPU에 모델을 할당하며, 프레임워크별로 모델을 효율적으로 배치합니다. 엔터프라이즈급 AI 소프트웨어 플랫폼인 NVIDIA AI Enterprise에서만 사용할 수 있는 TMS는 높은 성능과 하드웨어 활용도로 대규모 추론 배포를 가능하게 합니다.
Kubernetes에서 Triton 서버 인스턴스의 배포 및 관리를 자동화하고 메모리를 효율적으로 사용할 수 있도록 다양한 프레임워크의 모델 그룹화를 지원합니다.
온디맨드로 모델을 로드하고, 임대 시스템을 통해 사용하지 않을 때는 모델을 언로드하며, 가능한 한 많은 모델을 단일 GPU 서버에 배치합니다.
지연 시간 및 하드웨어 활용률을 기반으로 각 Triton 추론 서버의 상태, 용량 및 자동 확장을 모니터링합니다.
Triton 관리 서비스를 사용하여 단일 모델에서 수백 개의 모델까지 추론 배포를 효율적으로 관리할 수 있습니다. 온프레미스 또는 모든 퍼블릭 클라우드에 배포하세요.
프로덕션 추론을 위한 Triton 추론 서버 및 Triton 관리 서비스가 포함된 NVIDIA AI Enterprise를 구매하세요.
엄선된 무료 랩이 포함된 Triton 관리 서비스에 대한 액세스를 신청하세요. 바로 사용할 수 있는 소프트웨어, 샘플 데이터 및 애플리케이션이 포함된 단계별 가이드 랩에 액세스하세요.
여러 Triton 추론 서버 인스턴스의 배포를 자동화하는 데 도움이 되는 TMS의 주요 기능을 이해합니다.
더 빠르고 정확한 AI 추론을 수행하는 데 필요한 모든 하드웨어와 소프트웨어가 포함된 NVIDIA의 엔드투엔드 AI 추론 플랫폼을 살펴보세요.
최신 추론 업데이트 및 발표에 대해 읽어보세요.
AI 추론의 최신 환경, 기업의 프로덕션 사용 사례, 실제 과제 및 솔루션을 살펴보세요.
NVIDIA 뉴스레터를 구독하고 최신 AI 추론 분야 뉴스를 받아보세요.