NVIDIA Triton 추론 서버

모든 플랫폼에서 모든 애플리케이션용 AI를 배포, 실행 및 확장하세요.

모든 AI 워크로드를 위한 추론

NVIDIA Triton™을 통해 GPU, CPU 또는 기타 모든 프로세서의 프레임워크에서 트레이닝된 머신 러닝 또는 딥 러닝 모델에 대한 추론을 실행하세요. NVIDIA AI 플랫폼의 일부이자 NVIDIA AI Enterprise와 함께 사용할 수 있는 Triton은 모든 워크로드에서 AI 모델의 배포 및 실행을 표준화하는 오픈 소스 소프트웨어입니다.

Triton의 이점 살펴보기

모든 트레이닝 및 추론 프레임워크 지원

TensorFlow, PyTorch, Python, ONNX, NVIDIA® TensorRT™, RAPIDS™ cuML, XGBoost, scikit-learn RandomForest, OpenVINO, 맞춤형 C++ 등을 포함한 모든 주요 프레임워크에 Triton을 통해 AI 모델을 배포하세요.

모든 플랫폼에서의 고성능 추론

동적 배치, 동시 실행, 최적 구성, 스트리밍 오디오 및 영상을 통해 처리량 및 활용률을 극대화합니다. Triton은 모든 NVIDIA GPU, x86 및 Arm® CPU, AWS Inferentia를 지원합니다.

오픈 소스이며 DevOps 및 MLOps용으로 설계

Triton을 확장을 위한 Kubernetes 및 모니터링을 위한 Prometheus와 같은 DevOps 및 MLOps 솔루션에 통합합니다. 또한 모든 주요 클라우드 및 온프레미스 AI 및 MLOps 플랫폼에서 사용할 수 있습니다.

엔터프라이즈급 보안, 관리 용이성 및 API 안정성

NVIDIA Triton 및 Triton Management Service를 포함한 NVIDIA AI Enterprise는 지원, 보안 및 API 안정성을 통해 가치 창출 시간을 가속화하도록 설계된 안전한 프로덕션 준비를 마친 AI 소프트웨어 플랫폼입니다.

Triton 시작하기

프로덕션 배포를 위해 Triton과 함께 NVIDIA AI Enterprise 구매하기

프로덕션 추론을 위한 NVIDIA Triton 및 Triton Management Service가 포함된 NVIDIA AI Enterprise를 구매하세요.

개발용 컨테이너 및 코드 다운로드

Triton 컨테이너는 NVIDIA NGC™ 및 GitHub에서 오픈 소스 코드로 사용할 수 있습니다.

Triton 관리 서비스

GPU 및 CPU에서 리소스 효율적인 모델 오케스트레이션을 통해 Kubernetes에서 다중 Triton 추론 서버 인스턴스 배포를 자동화합니다.

기능 및 도구

대규모 언어 모델 추론

TensorRT-LLM은 프로덕션에서 추론을 위한 대규모 언어 모델(LLM)을 정의, 최적화 및 실행하기 위한 오픈 소스 라이브러리입니다. TensorRT의 딥 러닝 컴파일러와 결합된 FasterTransformer의 핵심 기능을 오픈 소스 Python API에서 유지하여 새로운 모델과 맞춤화를 빠르게 지원합니다.

모델 앙상블

많은 최신 AI 워크로드는 다중 모델을 실행해야 하며, 종종 각 쿼리에 대한 전처리 및 후처리 단계가 필요합니다. Triton은 모델 앙상블 및 파이프라인을 지원하고, CPU 또는 GPU에서 앙상블의 다른 부분을 실행할 수 있으며, 앙상블 내부의 다중 프레임워크를 허용합니다.

트리 기반 모델

Triton의 포레스트 추론 라이브러리(FIL) 백엔드는 CPU 및 GPU에서 설명 가능성(SHAP 값)을 갖춘 트리 기반 모델의 고성능 추론을 지원합니다. XGBoost, LightGBM, scikit-learn RandomForest, RAPIDS cuML RandomForest 등의 모델을 Treelite 형식으로 지원합니다.

NVIDIA PyTriton

PyTriton은 Python 개발자가 Triton을 사용하여 모델, 단순한 처리 함수 또는 전체 추론 파이프라인 등 모든 서비스를 제공할 수 있는 간단한 인터페이스를 제공합니다. Python의 Triton 기본 지원을 통해 성능 및 효율성을 갖춘 머신 러닝 모델의 프로토타입을 신속하게 제작하고 테스트할 수 있습니다. 한 줄의 코드로 Triton을 실행하고 동적 배치, 동시 모델 실행, GPU 및 CPU 지원과 같은 이점을 제공합니다. 따라서 모델 리포지토리를 설정하고 모델 형식을 변환할 필요가 없습니다. 기존의 추론 파이프라인 코드를 수정하지 않고 사용할 수 있습니다.

NVIDIA Triton 모델 분석기

Triton 모델 분석기는 대상 프로세서의 배치 크기, 정밀도 및 동시 실행 인스턴스와 같은 Triton 추론 서버의 모델 배포 구성을 자동으로 평가하는 도구입니다. 지연 시간, 처리량 및 메모리 요구 사항과 같은 애플리케이션 서비스 품질(QoS) 제약 조건을 충족하는 최적의 구성을 선택할 수 있으며 최적의 구성을 찾는 데 필요한 시간을 줄여줍니다. 이 도구는 모델 앙상블 및 다중 모델 분석도 지원합니다.

고객 사례

Amazon이 NVIDIA AI로 추론을 5배 가속화하여 고객 만족도를 개선한 방법을 알아보세요.

American Express가 매일 수천만 건의 거래를 50배 더 빠르게 분석하여 사기 감지를 개선한 방법을 알아보세요.

Siemens Energy가 누출, 비정상적 소음 등에 대한 AI 기반 원격 모니터링을 제공하여 검사를 강화한 방법을 알아보세요.

Microsoft Teams가 Triton을 사용하여 매우 짧은 지연 시간으로 다양한 언어의 실시간 자막 및 스크립트를 최적화한 방법을 알아보세요.

NIO가 NVIDIA Triton을 자율주행 추론 파이프라인에 통합하여 지연 시간이 짧은 추론 워크플로우를 달성한 방법을 알아보세요.

추가 리소스

소개 받기

프로덕션에서 AI 모델을 쉽게 배포, 실행 및 확장하는 데 도움이 되는 Triton 추론 서버 의 주요 기능을 이해합니다.

전문가 의견 듣기

추론에 대한 GTC 세션을 살펴보고 Triton 추론 서버를 시작하세요.

기술 블로그 살펴보기

Triton 추론 서버에 대한 블로그 읽기.

E-BOOK 확인하기

AI 추론의 최신 환경, 기업의 프로덕션 사용 사례, 실제 과제 및 솔루션을 살펴보세요.

NVIDIA 뉴스레터를 구독하고 최신 AI 추론 분야 뉴스를 받아보세요.