NVIDIA Dynamo는 분산 환경에서 생성형 AI 모델을 제공하기 위한 오픈소스 모듈형 추론 프레임워크입니다. 동적 리소스 스케줄링, 지능형 요청 라우팅, 메모리 최적화, 고속 데이터 전송을 통해 대규모 GPU 플릿 전반에서 추론 워크로드를 원활하게 확장할 수 있습니다.
NVIDIA GB200 NVL72에서 오픈소스 DeepSeek-R1 671B 추론 모델을 실행한 결과, NVIDIA Dynamo는 처리 가능한 요청 수를 최대 30배 증가시켰습니다. 이를 통해 토큰 기반 수익 창출을 극대화하면서도 가능한 한 낮은 비용으로 운영하려는 AI 팩토리에 이상적인 솔루션으로 자리 잡았습니다.
또한 NVIDIA Dynamo는 주요 AI 추론 백엔드를 모두 지원하며, 분산 서비스, AI 추론 모델의 가속과 확장 등 거대 언어 모델(LLM)에 특화된 최적화를 최소 비용으로 최고의 효율로 제공합니다. 앞으로는 NVIDIA AI Enterprise의 일부로 지원될 예정입니다.
개별 GPU 전반에 걸쳐 LLM 컨텍스트(사전 채우기)와 생성(디코딩) 단계를 분리하여 맞춤형 모델 병렬 처리 및 독립적인 GPU 할당을 가능하게 하여 GPU당 처리되는 요청이 증가합니다.
분산 추론 환경에서 GPU 용량을 모니터링하고 컨텍스트 및 생성 단계에 걸쳐 GPU 작업자를 동적으로 할당하여 병목 현상을 해결하고 성능을 최적화합니다.
추론 트래픽을 효율적으로 라우팅하여 컴퓨팅 리소스를 보호하고, 반복되거나 중첩되는 요청의 비용 부담이 큰 재계산을 최소화하면서 대규모 GPU 플릿 전반에 걸쳐 균형 잡힌 로드 분산을 보장합니다.
분산 추론 설정에서 데이터 이동을 가속화하면서 GPU, CPU, 네트워크 및 스토리지를 포함한 다양한 하드웨어에 걸쳐 전송 복잡성을 간소화합니다.
사전 구축된 배포하기 쉬운 도구를 사용하여 GPU 클러스터 설정을 간소화 및 자동화하고, 실시간 LLM별 지표를 사용하여 동적 자동 확장을 지원하면서 GPU 리소스를 초과 또는 부족하게 프로비저닝하지 않도록 합니다.
분산된 처리 등의 최적화를 적용해 고급 LLM 추론을 활용함으로써, 사용자 경험을 저하시키지 않으면서 처리할 수 있는 추론 요청의 수를 증가시킵니다.
개방형 및 모듈형 설계를 통해 고유한 요구 사항에 적합한 추론 제공 구성 요소를 쉽게 선택할 수 있어 기존 AI 스택과의 호환성을 보장하고 비용이 많이 드는 마이그레이션 프로젝트를 피할 수 있습니다.
NVIDIA Dynamo는 TensorRT-LLM, vLLM, SGLang, 파이토치 등을 포함한 모든 주요 프레임워크를 지원하므로 백엔드에 관계없이 새로운 생성형 AI 모델을 빠르게 배포할 수 있습니다.
NVIDIA Dynamo는 완전한 오픈소스 프로젝트로, 투명성과 유연성을 모두 제공합니다.
직접 배포하고, 프로젝트 발전에 기여하며, 기존 기술 스택에 자연스럽게 통합할 수 있습니다.
GitHub에서 확인하고 커뮤니티에 함께하세요!
NVIDIA Dynamo를 사용하여 혁신을 주도하는 방법에 대해 알아보세요.
추론 모델은 복잡한 문제를 해결하기 위한 더 많은 토큰을 생성하여 추론 비용을 늘립니다. NVIDIA Dynamo는 분리형 처리와 같은 기능을 사용하여 이러한 모델을 최적화합니다. 이러한 접근 방식을 통해 사전 채우기 및 디코딩 연산 단계를 별도의 GPU로 분리하여 AI 추론 팀이 각 단계를 독립적으로 최적화할 수 있도록 합니다. 그 결과, 리소스 활용도가 개선되고, GPU당 더 많은 쿼리가 처리되며, 추론 비용이 절감됩니다.
AI 모델이 너무 커져서 단일 노드에 들어갈 수 없게 되면서 이를 효율적으로 제공하기가 어려워집니다. 분산 추론은 여러 노드에 걸쳐 모델을 분할해야 하므로 오케스트레이션, 확장 및 통신의 복잡성을 가속화합니다. 이러한 노드가 특히 동적 워크로드에서 통합된 단위로 작동하도록 하려면 주의 깊게 관리해야 합니다. NVIDIA Dynamo는 쿠버네티스에 사전 구축된 기능을 제공하여 스케줄링, 확장 및 서빙을 원활하게 처리함으로써 이를 간소화하므로 인프라 관리가 아닌 AI를 배포하는 데 집중할 수 있습니다.
AI 에이전트는 LLM, 검색 시스템 및 특수 도구 등 실시간으로 동기화하여 작동하는 여러 모델을 활용합니다. 이러한 에이전트를 확장하는 것은 복잡한 과제이므로 응답성을 유지하기 위해 지능형 GPU 스케줄링, 효율적인 KV 캐시 관리 및 초저지연 통신이 필요합니다.
NVIDIA Dynamo는 내장 지능형 GPU 플래너, 스마트 라우터 및 짧은 지연 시간 통신 라이브러리를 사용하여 이 프로세스를 간소화하면서 AI 에이전트를 원활하고 효율적으로 확장합니다.
코드를 생성하기 위해 프롬프트를 조정하고, 요구 사항을 명확하게 하며, 모델의 응답을 기반으로 출력을 디버깅하기 위해 반복적으로 개선해야 하는 경우가 많습니다. 이러한 앞뒤 이동은 사용자가 턴할 때마다 컨텍스트를 재계산해야 하여 추론 비용이 증가합니다. NVIDIA Dynamo는 컨텍스트 재사용 및 비용 효율적인 메모리로 오프로드하면서 비용이 많이 드는 재계산을 최소화하고 전체 추론 비용을 절감하여 이 프로세스를 최적화합니다.
GitHub에서 다운로드하고 커뮤니티에 참여하세요!
최신 설명서, 튜토리얼, 기술 블로그 등 NVIDIA Dynamo로 개발을 시작하는 데 필요한 모든 것을 살펴보세요.
NVIDIA AI Enterprise의 보안, API 안정성, 지원을 통해 파일럿에서 프로덕션으로 전환하는 방법에 대해 NVIDIA 제품 전문가와 상담하세요.