추론

NVIDIA Triton 추론 서버

모든 플랫폼에서 모든 애플리케이션에 맞게 AI를 배포, 실행 및 확장합니다.

개요

모든 AI 워크로드에 대한 추론

NVIDIA Triton™ 추론 서버를 사용하여 GPU, CPU 또는 기타 프로세서의 모든 프레임워크에서 훈련된 머신 러닝 또는 딥 러닝 모델에 대한 추론을 실행합니다. Triton 추론 서버는 모든 워크로드에서 AI 모델 배포 및 실행을 표준화하는 오픈 소스 소프트웨어입니다. NVIDIA AI 플랫폼의 일부이며 NVIDIA AI Enterprise와 함께 사용할 수 있습니다.

LLM 배포, 최적화 및 벤치마킹

Triton 추론 서버를 사용하여 거대 언어 모델(LLM)을 효율적으로 제공하는 방법에 대한 단계별 지침을 확인하십시오.

기능

NVIDIA Triton 추론 서버 기능 및 도구 살펴보기

거대 언어 모델 추론

Triton은 거대 언어 모델(LLM) 추론을 위한 낮은 지연 시간과 높은 처리량을 제공합니다. 프로덕션에서 추론을 위해 LLM을 정의, 최적화 및 실행하는 오픈 소스 라이브러리인 TensorRT-LLM을 지원합니다.

모델 앙상블

Triton Model Ensembles를 사용하면 여러 모델, 파이프라인, 사전 및 후처리 단계로 AI 워크로드를 실행할 수 있습니다. CPU 또는 GPU에서 앙상블의 다른 부분을 실행할 수 있으며 앙상블 내부의 여러 프레임워크를 지원합니다.

NVIDIA PyTriton

PyTriton은 Python 개발자가 Triton을 코드 한 줄로 불러와 모델, 간단한 처리 함수 또는 전체 추론 파이프라인을 제공하여 프로토타이핑 및 테스트를 가속화할 수 있도록 해줍니다.

NVIDIA Triton 모델 분석기

모델 분석기는 배치 크기, 정밀도, 동시 실행 인스턴스와 같은 최적의 모델 배포 구성을 찾는 데 필요한 시간을 줄입니다. 애플리케이션 지연 시간, 처리량 및 메모리 요구 사항을 충족하는 최적의 구성을 선택하는 데 도움이 됩니다.

혜택

Triton 추론 서버의 장점

모든 훈련 및 추론 프레임워크 지원

TensorFlow, PyTorch, Python, ONNX, NVIDIA® TensorRT™, RAPIDS™ cuML, XGBoost, scikit-learn RandomForest, OpenVINO, 사용자 지정 C++ 등을 포함한 Triton 추론 서버를 사용하여 모든 주요 프레임워크에 AI 모델을 배포하십시오.

모든 플랫폼에서의 고성능 추론

동적 일괄 처리, 동시 실행, 최적의 구성, 오디오 및 비디오 스트리밍을 통해 처리량과 활용도를 극대화할 수 있습니다. Triton 추론 서버는 모든 NVIDIA GPU, x86 및 Arm CPU, AWS Inferentia를 지원합니다.

오픈 소스 및 DevOps/MLOps용으로 설계

Triton 추론 서버를 확장용 Kubernetes, 모니터링용 Prometheus와 같은 DevOps 및 MLOps 솔루션에 통합합니다. 또한 모든 주요 클라우드와 온프레미스 AI 및 MLOps 플랫폼에서도 사용할 수 있습니다.

엔터프라이즈급 보안, 관리 용이성 및 API 안정성

NVIDIA Triton 추론 서버를 포함한 NVIDIA AI Enterprise는 지원, 보안 및 API 안정성을 통해 가치를 창출하는 시간을 단축하도록 설계된 안전한 프로덕션 환경 지원 AI 소프트웨어 플랫폼입니다.

시작 옵션

NVIDIA Triton 시작하기

올바른 도구와 기술을 사용하여 모든 플랫폼에서 모든 애플리케이션에 맞게 AI를 배포, 실행 및 확장할 수 있습니다.

개발

개발을 위한 Triton 추론 서버 오픈소스 코드에 액세스하려는 개인의 경우.

개발

개발을 위해 무료 Triton 추론 서버 컨테이너에 액세스하려는 개인의 경우.

경험

단계별 지침과 예제가 포함된 NVIDIA 호스팅 인프라 및 가이드 실습 랩에 액세스하십시오. NVIDIA LaunchPad에서 무료로 사용할 수 있습니다.

배포

기존 인프라를 사용하여 90일 동안 프로덕션 환경에서 NVIDIA AI Enterprise를 무료로 사용해 볼 수 있는 무료 라이선스를 받으십시오.

활용 사례

Triton 사용 방법

업계 리더가 Triton 추론 서버를 통해 혁신을 주도하는 방법을 알아보십시오.

Unify 추론 서버

Triton 추론 서버를 사용하면 조직이 프레임워크별 추론 서버를 단일 플랫폼으로 통합할 수 있습니다. 각 AI 프레임워크에 대해 별도의 서버를 배포하고 관리하는 대신, 단일 통합 서버로 작동하여 추론 서비스 비용을 절감합니다. Triton 추론 서버는 PyTorch, TensorFlow, TensorRT-LLM, VLLM, TensorRT, ONNX, OpenVINO를 포함한 모든 주요 AI 프레임워크를 지원합니다.

모델 배포 최적화

Triton 추론 서버는 다양한 모델 동시성 및 배치 크기 구성에서 지연 시간과 처리량을 테스트하기 위해 자동화된 스윕을 수행할 수 있습니다. 이를 통해 개발자는 수동 작업 없이도 서비스 수준 계약을 충족하는 가장 효과적인 설정을 신속하게 찾아낼 수 있습니다. LLM 모델의 경우, Triton 추론 서버는 토큰 생성을 자동화하고 첫 번째 토큰 지연 시간, 토큰 간 지연 시간 및 초당 토큰 수와 같은 배포 지표를 제공합니다. 이 기능은 가장 효율적인 LLM 프로덕션 설정의 식별 및 배포를 가속화합니다.

다중 모델 AI 파이프라인 간편하게 구축하기

Triton 추론 서버를 사용하면 조직이 모델 앙상블을 쉽게 구축할 수 있습니다. 한 번의 추론 요청으로 트리거될 수 있는 통합 파이프라인에 AI 모델을 원활하게 연결하는 로우 코드 도구를 제공합니다. 이를 통해 조직은 수동 코딩 없이도 전처리 및 후처리 워크플로를 통합할 수 있습니다. Triton 추론 서버는 또한 CPU에서 전처리 및 후처리 작업을 예약할 수 있도록 지원하여 전체 워크플로를 간소화합니다.

온프레미스, 엣지에서 또는 모든 클라우드에서 배포 가능

Triton 추론 서버는 온프레미스, 클라우드 또는 엣지 장치에 배포하기에 적합한 Docker 컨테이너로 제공됩니다. Amazon SageMaker, Azure ML Studio, Google Vertex AI 및 OCI Data Science와 같은 모든 주요 클라우드 공급업체의 선도적인 MLOps AI 도구에 긴밀하게 통합되어 있습니다. 클라우드 배포의 경우, 간단한 명령줄 플래그로 Triton 추론 서버를 쉽게 실행할 수 있어 구현 시간을 최소화하고 엔터프라이즈 거버넌스 표준에 부합합니다.

고객 사례

업계 리더들이 Triton을 통해 모델 배포를 개선하는 방법 알아보기

Snapchat

AI를 통한 의류 쇼핑 경험의 향상

Snapchat이 Triton을 사용하여 의류 쇼핑 경험과 이모티콘 인식 광학 문자 인지 기능을 개선하여 어떻게 규모를 확장하고, 비용을 절감하며, 생산 시간을 단축했는지 알아보십시오.

Docusign

NVIDIA의 추론 플랫폼을 통한 계약 관리 가속화

Docusign이 Triton과 Azure를 사용하여 계약 정보를 파악하고, 계약 데이터를 인사이트로 전환하며, 생산성을 높이는 방법을 살펴보십시오.

Oracle Cloud

NVIDIA Triton, Oracle Cloud에서 추론 속도 향상

Oracle Cloud Infrastructure의 컴퓨터 비전 및 데이터 사이언스 서비스가 NVIDIA Triton 추론 서버를 통해 AI 예측 속도를 향상시키는 방법을 알아보십시오.

채택 업체

모든 산업 분야의 선도적인 도입

리소스

NVIDIA Triton 최신 리소스

최신 뉴스 받기

Triton 추론 서버에 대한 최신 추론 업데이트 및 발표에 대해 읽어보십시오.

기술 블로그 살펴보기

추론을 시작하는 방법에 대한 기술 안내를 읽어보십시오.

더 자세히 알아보기

생성형 AI, LLM, 추천 시스템, 컴퓨터 비전 등에 대한 추론을 위한 AI 모델을 배포, 실행 및 확장하기 위한 팁과 모범 사례를 확인할 수 있습니다.

LLM 배포, 최적화 및 벤치마킹

단계별 지침을 통해 Triton 추론 서버를 사용하여 LLM을 효율적으로 제공하는 방법을 알아보십시오. 여러 백엔드에 LLM을 쉽게 배포하고 성능을 비교하는 방법과 최적의 성능을 위해 배포 구성을 미세 조정하는 방법을 설명합니다.

개발에서 생산까지 엔터프라이즈 AI 사용 사례 살펴보기

AI 추론이 무엇인지, 기업의 AI 배포 전략에 어떻게 적합한지, 엔터프라이즈급 AI 사용 사례를 배포하는 데 있어서 중요한 과제, 이러한 과제를 해결하기 위해 풀 스택 AI 추론 솔루션이 필요한 이유, 풀 스택 플랫폼의 주요 구성 요소, 첫 번째 AI 추론 솔루션을 배포하는 방법에 대해 알아보십시오.

클라우드 지원 AI 추론 솔루션의 성능 활용하기

NVIDIA AI 추론 플랫폼이 어떻게 선도적인 클라우드 서비스 제공업체와 원활하게 통합되어 배포를 간소화하고 LLM 기반 AI 사용 사례의 출시를 가속화하는지 살펴보십시오.

빠른 시작 가이드

Triton 추론 서버를 처음 사용하며 모델을 빠르게 배포하고 싶으십니까? 이 빠른 시작 가이드를 사용하여 Triton 여정을 시작하십시오.

튜토리얼

Triton을 시작하면 많은 궁금증이 생길 수 있습니다. 이 리포지토리를 살펴보면서 Triton의 기능을 숙지하고, 마이그레이션을 쉽게 할 수 있는 가이드와 예제를 찾아보세요.

NVIDIA LaunchPad

실습 랩에서 NVIDIA Triton 추론 서버를 사용하여 빠르고 확장 가능한 AI를 경험하십시오. NVIDIA의 가속화된 컴퓨팅 인프라의 이점을 즉시 활용하고 AI 워크로드를 확장할 수 있습니다.

Triton이 추론을 단순화하는 5가지 이유

NVIDIA Triton 추론 서버는 프로덕션 환경에서 규모가 큰 AI 모델의 배포를 간소화하여, 팀은 로컬 스토리지 또는 클라우드 플랫폼의 모든 프레임워크에서 학습된 AI 모델을 GPU 또는 CPU 기반 인프라에 배포할 수 있습니다.

Triton으로 HuggingFace의 Stable Diffusion 파이프라인 배포

이 비디오는 HuggingFace 디퓨저 라이브러리를 통해 제공되는 Stable Diffusion 파이프라인을 배포하는 것을 보여줍니다. Triton 추론 서버를 사용하여 파이프라인을 배포하고 실행합니다.

NVIDIA Triton 추론 서버 시작하기

Triton 추론 서버는 모델 배포를 표준화하고 프로덕션 환경에서 빠르고 확장 가능한 AI를 지원하는 오픈 소스 추론 솔루션입니다. 많은 기능을 갖추고 있기 때문에 어디서부터 시작해야 하는지 묻는 것은 자연스러운 일입니다. 영상을 통해 알아보십시오.

Oracle Cloud

NVIDIA Triton, Oracle Cloud에서 추론 속도 향상

Oracle Cloud Infrastructure의 컴퓨터 비전 및 데이터 사이언스 서비스가 NVIDIA Triton 추론 서버를 통해 AI 예측 속도를 향상시키는 방법을 알아보십시오.

ControlExpert

자동차 클레임 관리 혁신

ControlExpert가 고객에게 24시간 서비스를 제공하는 엔드투엔드 클레임 관리 솔루션을 개발하기 위해 어떻게 NVIDIA AI를 사용했는지 알아보십시오.

Wealthsimple

머신 러닝 모델 전달 및 추론 가속화

Wealthsimple이 NVIDIA의 AI 추론 플랫폼을 사용하여 어떻게 모델 배포 기간을 몇 개월에서 단 15분으로 성공적으로 단축했는지 알아보십시오.

Triton 온라인 포럼

NVIDIA Triton 추론 서버의 온라인 커뮤니티를 탐색하여 방법과 관련된 질문을 찾아보고, 모범 사례를 배우며, 다른 개발자와 소통하고, 버그를 보고할 수 있습니다.

NVIDIA 개발자 프로그램

NVIDIA 개발자 프로그램을 통해 같은 생각을 가진 수백만 명의 개발자와 관계를 구축하고, NVIDIA 기술로 앱을 성공적으로 구축하는 데 필요한 모든 도구인 수백 개의 GPU 가속 컨테이너, 모델 및 SDK를 이용할 수 있습니다.

스타트업 액셀러레이터 프로그램

NVIDIA Inception은 최첨단 스타트업을 위한 무료 프로그램으로, 시장 진출 지원, 기술 전문 지식, 교육 및 자금 조달 기회에 대한 중요한 접근성을 제공합니다.

다음 단계

시작할 준비가 되셨습니까?

올바른 도구와 기술을 사용하여 완전히 사용자 정의 가능한 다국어 음성 및 번역 AI 애플리케이션을 구축하고 배포하십시오.

개발자용

최신 설명서, 튜토리얼, 기술 블로그 등의 NVIDIA Riva를 사용하여 개발을 시작하는 데 필요한 모든 것을 살펴보십시오.

연락하기

NVIDIA 제품 전문가와 상담하여 NVIDIA AI Enterprise의 보안, API 안정성 및 지원을 통해 파일럿에서 프로덕션 환경으로 전환할 수 있습니다.