최신 최첨단 언어 모델을 효율적으로 서비스하려면 단일 GPU는 물론, 하나의 노드로도 감당하기 어려운 자원이 필요해 분산된 멀티 노드 배포가 AI 추론에 필수적입니다.
NVIDIA Dynamo는 데이터센터 규모의 멀티 노드 환경에 모델을 배포하기 위해 구축된 분산 추론 서비스 프레임워크입니다. 이 솔루션은 다양한 GPU에 다양한 추론의 여러 단계를 분리해 배치하고, 요청을 적절한 GPU로 지능적으로 라우팅해 중복 계산을 방지하며, 데이터 캐싱을 통해 GPU 메모리를 비용 효율적인 스토리지 계층으로 확장함으로써 분산 서비스의 복잡성을 단순화하고 자동화합니다.
NVIDIA NIM™ 마이크로서비스에는 NVIDIA Dynamo 기능이 포함되어, 빠르고 손쉬운 배포 옵션을 제공합니다. NVIDIA Dynamo는 NVIDIA AI Enterprise에서도 지원되고 사용할 수 있습니다.
추론 AI 모델 확장을 위한 저지연 분산 추론 프레임워크입니다.
독립 벤치마크 결과에 따르면, GB200 NVL72와 NVIDIA Dynamo를 함께 사용하면 Mixture-of-Expert(MoE) 모델 처리량이 NVIDIA Hopper 기반 시스템 대비 최대 15배 향상됩니다.
GB200 NVL72는 고속 NVIDIA NVLink™를 통해 72개의 GPU를 연결하여 MoE 추론 모델에 중요한 저지연 전문가 간 통신을 가능하게 합니다. NVIDIA Dynamo는 추론 단계를 분리해 노드 간에 프리필과 디코드 단계를 독립적으로 최적화함으로써 효율성을 향상합니다. GB200 NVL72와 NVIDIA Dynamo는 대규모 MoE 추론에 최적화된 고성능 스택을 구성합니다.
NVIDIA Dynamo는 완전히 오픈 소스이므로 완전한 투명성과 유연성을 제공합니다. NVIDIA Dynamo를 배포하고, 그 성장에 기여하며, 기존 스택에 원활하게 통합합니다.
GitHub에서 확인하고 커뮤니티에 참여하세요!
사전 구축된 손쉬운 배포 도구로 GPU 클러스터 설정을 간소화하고 자동화하세요. 실시간 LLM 전용 지표를 활용해 GPU 자원을 과하게 할당하거나 부족하게 쓰는 일을 방지하면서, 유동적인 오토스케일링도 활성화할 수 있습니다.
분리된 서빙과 토폴로지 인식 자동 확장 같은 고급 LLM 추론 서빙 최적화를 활용하여, 사용자 경험을 해치지 않으면서 처리 가능한 추론 요청 수를 늘리세요.
개방형 및 모듈형 설계를 통해 고유한 요구 사항에 적합한 추론 제공 구성 요소를 쉽게 선택할 수 있어 기존 AI 스택과의 호환성을 보장하고 비용이 많이 드는 마이그레이션 프로젝트를 피할 수 있습니다.
NVIDIA Dynamo는 TensorRT-LLM, vLLM, SGLang, 파이토치 등을 포함한 모든 주요 프레임워크를 지원하므로 백엔드에 관계없이 새로운 생성형 AI 모델을 빠르게 배포할 수 있습니다.
NVIDIA Dynamo를 사용하여 혁신을 주도하는 방법에 대해 알아보세요.
추론 모델은 복잡한 문제를 해결하기 위한 더 많은 토큰을 생성하여 추론 비용을 늘립니다. NVIDIA Dynamo는 분리형 처리와 같은 기능을 사용하여 이러한 모델을 최적화합니다. 이러한 접근 방식을 통해 사전 채우기 및 디코딩 연산 단계를 별도의 GPU로 분리하여 AI 추론 팀이 각 단계를 독립적으로 최적화할 수 있도록 합니다. 그 결과, 리소스 활용도가 개선되고, GPU당 더 많은 쿼리가 처리되며, 추론 비용이 절감됩니다. NVIDIA Dynamo는 NVIDIA GB200 NVL72와 결합하면 복합 성능을 최대 15배 향상시킵니다.
AI 모델이 너무 커져서 단일 노드에 들어갈 수 없게 되면서 이를 효율적으로 제공하기가 어려워집니다. 분산 추론은 여러 노드에 걸쳐 모델을 분할해야 하므로 쿠버네티스 기반 환경에서 오케스트레이션, 확장 및 통신의 복잡성을 가속화합니다. 이러한 노드가 특히 동적 워크로드에서 통합된 단위로 작동하도록 하려면 주의 깊게 관리해야 합니다. NVIDIA Dynamo는 일정 관리, 확장 및 서빙을 원활하게 처리하는 Grove를 사용하여 이 과정을 단순화하므로, 사용자는 인프라 관리가 아닌 AI 배포에 집중할 수 있습니다.
AI 에이전트는 LLM, 검색 시스템, 특수 도구 등 여러 모델과 실시간으로 상호작용하면서 방대한 양의 KV 캐시를 생성합니다. 이 KV 캐시는 종종 GPU 메모리 용량을 초과하여 확장성과 성능에 병목 현상을 일으킵니다.
GPU 메모리 한계를 극복하기 위해 KV 데이터를 호스트 메모리나 외부 스토리지에 캐싱하면 용량을 확장할 수 있으며, 이를 통해 AI 에이전트는 제약 없이 확장할 수 있습니다. NVIDIA Dynamo는 KV Cache Manager와 LMCache와 같은 오픈 소스 도구와의 통합을 통해 이 과정을 단순화하여, 효율적인 캐시 관리와 확장 가능한 AI 에이전트 성능을 보장합니다.
코드를 생성하기 위해 프롬프트를 조정하고, 요구 사항을 명확하게 하며, 모델의 응답을 기반으로 출력을 디버깅하기 위해 반복적으로 개선해야 하는 경우가 많습니다. 이러한 앞뒤 이동은 사용자가 턴할 때마다 컨텍스트를 재계산해야 하여 추론 비용이 증가합니다. NVIDIA Dynamo는 컨텍스트 재사용을 가능하게 하여 이 프로세스를 최적화합니다.
NVIDIA Dynamo의 LLM 인식 라우터는 멀티 노드 GPU 클러스터 전반에서 KV 캐시를 지능적으로 관리합니다. 이 솔루션은 캐시 중첩도를 기반으로 요청을 라우팅하여, 재사용 가능성이 가장 높은 GPU로 요청을 전달합니다. 이를 통해 중복 연산을 최소화하고 대규모 배포에서 균형 잡힌 성능을 보장합니다.
"고급 AI 모델을 확장하려면 정교한 다중 GPU 스케줄링, 원활한 조정 및 메모리 및 스토리지에 걸쳐 추론 컨텍스트를 원활하게 전송하는 짧은 지연 시간 통신 라이브러리가 필요합니다. Dynamo가 기업 고객에게 최고의 사용자 경험을 제공하는데 도움이 될 것으로 기대합니다."
Saurabh Baji, Cohere 엔지니어링 부문 수석 부사장
"매달 수억 개의 요청을 처리하며 NVIDIA의 GPU와 추론 소프트웨어를 활용하여 성능, 안정성을 제공하고 비즈니스 및 사용자 수요를 확장합니다. "Dynamo를 활용하여 향상된 분산 서빙 기능을 활용하여 더 많은 추론 서빙 효율성을 높이고 새로운 AI 추론 모델의 컴퓨팅 수요를 충족하길 기대합니다."
Denis Yarats, Perplexity AI의 CTO.
"추론 모델을 비용 효율적으로 확장하려면 분산된 서빙 및 컨텍스트 인식 라우팅을 포함한 새로운 고급 추론 기법이 필요합니다. AI는 독점 추론 엔진을 사용하여 업계 최고의 성능을 제공합니다. NVIDIA Dynamo의 개방성과 모듈성 덕분에 엔진에 구성 요소를 원활하게 연결하여 더 많은 요청을 처리하면서 리소스 활용도를 최적화하여 가속 컴퓨팅 투자를 극대화할 수 있습니다."
Ce Zhang, Together AI의 CTO.
GitHub에서 다운로드하고 커뮤니티에 참여하세요!
최신 설명서, 튜토리얼, 기술 블로그 등 NVIDIA Dynamo로 개발을 시작하는 데 필요한 모든 것을 살펴보세요.
NVIDIA AI Enterprise의 보안, API 안정성, 지원을 통해 파일럿에서 프로덕션으로 전환하는 방법에 대해 NVIDIA 제품 전문가와 상담하세요.