AI 추론

NVIDIA Dynamo

AI 추론을 빠르게 확장하고 제공하세요.

시작하기

보도 자료 읽기 | 기술 블로그 읽기

개요
기능
시작 옵션
이점
사용 사례
고객 추천사
리소스
다음 단계

개요
기능
시작 옵션
이점
사용 사례
고객 추천사
리소스
다음 단계

시작하기

개요

AI 운영 체제

최신 최첨단 언어 모델을 효율적으로 서비스하려면 단일 GPU는 물론, 하나의 노드로도 감당하기 어려운 자원이 필요해 분산된 멀티 노드 배포가 AI 추론에 필수적입니다.

NVIDIA Dynamo는 데이터센터 규모의 멀티 노드 환경에 모델을 배포하기 위해 구축된 분산 추론 서비스 프레임워크입니다. 이 솔루션은 다양한 GPU에 다양한 추론의 여러 단계를 분리해 배치하고, 요청을 적절한 GPU로 지능적으로 라우팅해 중복 계산을 방지하며, 데이터 캐싱을 통해 GPU 메모리를 비용 효율적인 스토리지 계층으로 확장함으로써 분산 서비스의 복잡성을 단순화하고 자동화합니다.

NVIDIA NIM™ 마이크로서비스에는 NVIDIA Dynamo 기능이 포함되어, 빠르고 손쉬운 배포 옵션을 제공합니다. NVIDIA Dynamo는 NVIDIA AI Enterprise에서도 지원되고 사용할 수 있습니다.

분산 추론이란 무엇인가요?

분산 추론은 여러 컴퓨팅 장치 또는 노드에 걸쳐 AI 모델 추론을 실행하여 연산을 병렬화함으로써 처리량을 극대화하는 프로세스입니다.

이러한 접근 방식을 통해 GPU 또는 클라우드 인프라 전반에 워크로드를 분산하여 생성형 AI와 같은 대규모 AI 애플리케이션을 효율적으로 확장할 수 있습니다. 분산 추론은 사용자가 각 워크로드의 고유한 요구 사항에 맞게 지연 시간과 처리량을 최적화할 수 있도록 하여 전체 성능과 리소스 활용도를 향상시킵니다.

NVIDIA Dynamo에 대해 자세히 알아보기

추론 AI 모델 확장을 위한 저지연 분산 추론 프레임워크입니다.

독립 벤치마크 결과에 따르면, GB200 NVL72와 NVIDIA Dynamo를 함께 사용하면 Mixture-of-Expert(MoE) 모델 처리량이 NVIDIA Hopper 기반 시스템 대비 최대 15배 향상됩니다.

GB200 NVL72는 고속 NVIDIA NVLink™를 통해 72개의 GPU를 연결하여 MoE 추론 모델에 중요한 저지연 전문가 간 통신을 가능하게 합니다. NVIDIA Dynamo는 추론 단계를 분리해 노드 간에 프리필과 디코드 단계를 독립적으로 최적화함으로써 효율성을 향상합니다. GB200 NVL72와 NVIDIA Dynamo는 대규모 MoE 추론에 최적화된 고성능 스택을 구성합니다.

기능

NVIDIA Dynamo의 기능 살펴보기

분산 제공

거대 언어 모델(LLM)의 컨텍스트 단계와 생성 단계를 개별 GPU에 분리해 배치함으로써 독립적으로 할당 및 최적화할 수 있으며, 이를 통해 GPU당 처리 가능한 요청 수를 늘릴 수 있습니다.

LLM-Aware 라우터

추론 트래픽을 효율적으로 라우팅하여 컴퓨팅 리소스를 보호하고, 반복되거나 중첩되는 요청의 비용 부담이 큰 재계산을 최소화하면서 대규모 GPU 플릿 전반에 걸쳐 균형 잡힌 로드 분산을 보장합니다.

스토리지로 KV 캐싱

KV 캐시를 제한된 GPU 메모리에서 CPU RAM, 로컬 SSD, 네트워크 스토리지 등 확장 가능하고 비용 효율적인 스토리지로 즉시 오프로드합니다.

토폴로지 최적화된 쿠버네티스 서빙(Grove)

통합된 쿠버네티스 커스텀 리소스를 통해 단일 노드 및 멀티 노드 환경에서 상호 의존적인 AI 추론 구성 요소를 효율적으로 확장하고 선언적으로 시작 순서를 제어할 수 있습니다.

GPU 플래너

분산 추론 환경에서 GPU 용량을 모니터링하고 컨텍스트 및 생성 단계에 걸쳐 GPU 작업자를 동적으로 할당하여 병목 현상을 해결하고 성능을 최적화합니다.

짧은 지연 시간 통신 라이브러리(NIXL)

분산 추론 설정에서 데이터 이동을 가속화하면서 GPU, CPU, 네트워크 및 스토리지를 포함한 다양한 하드웨어에 걸쳐 전송 복잡성을 간소화합니다.

AIConfigurator

모델, GPU 예산, SLO에 맞춰 최적의 프리필 및 디코딩 구성과 모델 병필화 전략을 추천함으로써, 분리된 서빙 클러스터에서 발생하는 추측과 시행착오를 제거합니다.

AIPerf

명령줄 출력과 심층 성능 보고서를 통해 모든 추론 솔루션에서 생성형 AI 모델 성능을 벤치마킹하고 상세한 지표를 확인하세요.

분산 추론 가속화

NVIDIA Dynamo는 완전히 오픈 소스이므로 완전한 투명성과 유연성을 제공합니다. NVIDIA Dynamo를 배포하고, 그 성장에 기여하며, 기존 스택에 원활하게 통합합니다.

GitHub에서 확인하고 커뮤니티에 참여하세요!

시작하기

이점

NVIDIA Dynamo의 이점

하나의 GPU에서 수천 개의 GPU로 매끄럽게 확장하세요

사전 구축된 손쉬운 배포 도구로 GPU 클러스터 설정을 간소화하고 자동화하세요. 실시간 LLM 전용 지표를 활용해 GPU 자원을 과하게 할당하거나 부족하게 쓰는 일을 방지하면서, 유동적인 오토스케일링도 활성화할 수 있습니다.

비용을 절감하면서 추론 제공 용량 증가

분리된 서빙과 토폴로지 인식 자동 확장 같은 고급 LLM 추론 서빙 최적화를 활용하여, 사용자 경험을 해치지 않으면서 처리 가능한 추론 요청 수를 늘리세요.

AI 인프라를 미래에도 사용할 수 있게 만들고 비용이 많이 드는 마이그레이션 피하기

개방형 및 모듈형 설계를 통해 고유한 요구 사항에 적합한 추론 제공 구성 요소를 쉽게 선택할 수 있어 기존 AI 스택과의 호환성을 보장하고 비용이 많이 드는 마이그레이션 프로젝트를 피할 수 있습니다.

프로덕션에서 새로운 AI 모델을 배포하는 시간 단축

NVIDIA Dynamo는 TensorRT-LLM, vLLM, SGLang, 파이토치 등을 포함한 모든 주요 프레임워크를 지원하므로 백엔드에 관계없이 새로운 생성형 AI 모델을 빠르게 배포할 수 있습니다.

사용 사례

NVIDIA Dynamo를 활용한 AI 배포

NVIDIA Dynamo를 사용하여 혁신을 주도하는 방법에 대해 알아보세요.

추론 모델 서빙
쿠버네티스 AI 확장
AI 에이전트 배포
코드 생성

추론 모델 서빙

추론 모델은 복잡한 문제를 해결하기 위한 더 많은 토큰을 생성하여 추론 비용을 늘립니다. NVIDIA Dynamo는 분리형 처리와 같은 기능을 사용하여 이러한 모델을 최적화합니다. 이러한 접근 방식을 통해 사전 채우기 및 디코딩 연산 단계를 별도의 GPU로 분리하여 AI 추론 팀이 각 단계를 독립적으로 최적화할 수 있도록 합니다. 그 결과, 리소스 활용도가 개선되고, GPU당 더 많은 쿼리가 처리되며, 추론 비용이 절감됩니다. NVIDIA Dynamo는 NVIDIA GB200 NVL72와 결합하면 복합 성능을 최대 15배 향상시킵니다.

쿠버네티스 AI 확장

AI 모델이 너무 커져서 단일 노드에 들어갈 수 없게 되면서 이를 효율적으로 제공하기가 어려워집니다. 분산 추론은 여러 노드에 걸쳐 모델을 분할해야 하므로 쿠버네티스 기반 환경에서 오케스트레이션, 확장 및 통신의 복잡성을 가속화합니다. 이러한 노드가 특히 동적 워크로드에서 통합된 단위로 작동하도록 하려면 주의 깊게 관리해야 합니다. NVIDIA Dynamo는 일정 관리, 확장 및 서빙을 원활하게 처리하는 Grove를 사용하여 이 과정을 단순화하므로, 사용자는 인프라 관리가 아닌 AI 배포에 집중할 수 있습니다.

확장 가능한 AI 에이전트

AI 에이전트는 LLM, 검색 시스템, 특수 도구 등 여러 모델과 실시간으로 상호작용하면서 방대한 양의 KV 캐시를 생성합니다. 이 KV 캐시는 종종 GPU 메모리 용량을 초과하여 확장성과 성능에 병목 현상을 일으킵니다.

GPU 메모리 한계를 극복하기 위해 KV 데이터를 호스트 메모리나 외부 스토리지에 캐싱하면 용량을 확장할 수 있으며, 이를 통해 AI 에이전트는 제약 없이 확장할 수 있습니다. NVIDIA Dynamo는 KV Cache Manager와 LMCache와 같은 오픈 소스 도구와의 통합을 통해 이 과정을 단순화하여, 효율적인 캐시 관리와 확장 가능한 AI 에이전트 성능을 보장합니다.

코드 생성

코드를 생성하기 위해 프롬프트를 조정하고, 요구 사항을 명확하게 하며, 모델의 응답을 기반으로 출력을 디버깅하기 위해 반복적으로 개선해야 하는 경우가 많습니다. 이러한 앞뒤 이동은 사용자가 턴할 때마다 컨텍스트를 재계산해야 하여 추론 비용이 증가합니다. NVIDIA Dynamo는 컨텍스트 재사용을 가능하게 하여 이 프로세스를 최적화합니다.

NVIDIA Dynamo의 LLM 인식 라우터는 멀티 노드 GPU 클러스터 전반에서 KV 캐시를 지능적으로 관리합니다. 이 솔루션은 캐시 중첩도를 기반으로 요청을 라우팅하여, 재사용 가능성이 가장 높은 GPU로 요청을 전달합니다. 이를 통해 중복 연산을 최소화하고 대규모 배포에서 균형 잡힌 성능을 보장합니다.

고객 추천사

NVIDIA Dynamo에 대한 업계 리더들의 의견 보기

더 많은 고객 사례

Cohere

"고급 AI 모델을 확장하려면 정교한 다중 GPU 스케줄링, 원활한 조정 및 메모리 및 스토리지에 걸쳐 추론 컨텍스트를 원활하게 전송하는 짧은 지연 시간 통신 라이브러리가 필요합니다. Dynamo가 기업 고객에게 최고의 사용자 경험을 제공하는데 도움이 될 것으로 기대합니다."

Saurabh Baji, Cohere 엔지니어링 부문 수석 부사장

Perplexity AI

"매달 수억 개의 요청을 처리하며 NVIDIA의 GPU와 추론 소프트웨어를 활용하여 성능, 안정성을 제공하고 비즈니스 및 사용자 수요를 확장합니다. "Dynamo를 활용하여 향상된 분산 서빙 기능을 활용하여 더 많은 추론 서빙 효율성을 높이고 새로운 AI 추론 모델의 컴퓨팅 수요를 충족하길 기대합니다."

Denis Yarats, Perplexity AI의 CTO.

Together AI

"추론 모델을 비용 효율적으로 확장하려면 분산된 서빙 및 컨텍스트 인식 라우팅을 포함한 새로운 고급 추론 기법이 필요합니다. AI는 독점 추론 엔진을 사용하여 업계 최고의 성능을 제공합니다. NVIDIA Dynamo의 개방성과 모듈성 덕분에 엔진에 구성 요소를 원활하게 연결하여 더 많은 요청을 처리하면서 리소스 활용도를 최적화하여 가속 컴퓨팅 투자를 극대화할 수 있습니다."

Ce Zhang, Together AI의 CTO.

고객 사례

업계 리더들이 NVIDIA Dynamo 플랫폼을 통해 모델 배포를 향상시키는 방법

더 많은 고객 사례

채택 업체

모든 산업 분야에서의 선도적인 채택 기업

고객
에코시스템 통합

리소스

NVIDIA 추론 최신 소식

블로그
세션
교육
비디오

기술 블로그 살펴보기

추론을 시작하는 방법에 대한 기술 안내를 읽어보세요.

모든 기술 LLM 추론 블로그 보기

자세히 알아보기

생성형 AI, LLM, 추천 시스템, 컴퓨터 비전 등에 대한 추론을 위한 AI 모델을 배포, 실행 및 확장하기 위한 팁과 모범 사례를 확인할 수 있습니다.

지금 읽기

모든 블로그 보기

LLM 추론 성능 향상

NVIDIA Dynamo Office Hour 녹화본을 시청하고, NVIDIA Dynamo로 LLM 서비스를 최적화하는 방법을 알아보세요. 오픈소스 모델과 추론 백엔드에서 LLM 인식 라우팅, 분리형 서비스, 동적 자동 확장 기능을 활용하여 SLA를 충족하고 상호작용과 처리량을 향상시키는 방법을 알아보세요.

온디맨드 오피스 아워 시청하기

LLM 확장을 위한 낮은 지연 시간 분산 추론

NVIDIA Dynamo를 사용하여 추론 LLM을 배포하고 확장하는 방법을 알아보세요. 분리된 프리필과 디코드 같은 고급 서빙 기법을 살펴보고, NVIDIA NIM이 차세대 AI 추론을 빠르고 실전에 바로 투입할 수 있도록 대규모로 배포하는 방법을 확인해보세요.

온디맨드 GTC 세션 보기

쿠버네티스 - 네이티브 AI 서빙

복잡한 AI 추론 워크로드를 오케스트레이션하기 위한 쿠버네티스 네이티브 솔루션인 Grove를 알아보세요. NVIDIA Dynamo의 일부러 사용하거나 독립형으로 배포할 수 있는 Grove는 강력한 API를 통해 AI 프레임워크와 쿠버네티스 간의 격차를 해소하여, 쿠버네티스에서 확장 가능하고 효율적인 AI 추론을 그 어느 때보다 쉽게 구현할 수 있게 합니다.

온디맨드 오피스 아워 시청하기

더 많은 세션 보기

빠른 시작 가이드

NVIDIA Dynamo를 처음 사용하여 모델을 빠르게 배포하고 싶으신가요? 이 빠른 시작 가이드를 사용하여 NVIDIA Dynamo 여정을 시작하세요.

지금 읽기

튜토리얼

NVIDIA Dynamo를 시작하면 많은 궁금증이 생길 수 있습니다. 이 리포지토리를 살펴보고, NVIDIA Dynamo의 기능에 익숙해지며, 마이그레이션을 용이하게 하는 데 도움이 되는 가이드 및 예제를 찾아보세요.

지금 읽기

NVIDIA Brev

NVIDIA Brev를 사용하면 몇 초 안에 NVIDIA GPU를 활용할 수 있으며, 주요 클라우드 플랫폼에서 즉각적인 액세스, 자동 설정, 유연한 배포가 가능합니다. 지금 바로 AI 프로젝트를 시작하고 확장해보세요.

지금 알아보기

NVIDIA Dynamo AIConfigurator로 AI 서비스를 최적화하는 방법

AIConfigurator는 분산된 서비스에서 추측을 제거합니다. 모델, GPU 예산 및 SLO를 기반으로 성능 목표 달성을 위한 최적의 구성을 권장합니다. 이 영상에서 AIConfigurator를 시작하는 방법을 알아보세요.

지금 시청하기

SGLang 및 NVIDIA Dynamo를 통한 추론 확장

SGLang × NVIDIA Meetup 녹화를 시청하여 SGLang 및 NVIDIA Dynamo 팀의 인사이트와 함께 대규모 추론 성능을 살펴보세요. 애플리케이션의 AI 추론을 최적화하기 위한 최신 기술 발전 및 통합 전략을 확인해 보세요.

지금 시청하기

효율적인 AI 추론을 위한 고급 기술

이 영상은 AI 추론의 세 가지 핵심 지수인 품질, 비용, 속도와 테스트 타임 스케일링이 각 지표에 어떤 영향을 미치는지 자세히 살펴봅니다. NVIDIA Dynamo가 분리, KV 오프로드, KV 라우팅과 같은 고급 기술을 통해 정밀한 제어를 제공하는 방법을 알아보세요. 이를 통해 어떤 트레이드오프 없이도 대규모 모델 배포를 최적화할 수 있습니다.

지금 시청하기

더 많은 비디오 보기

다음 단계

시작할 준비가 되셨나요?

GitHub에서 다운로드하고 커뮤니티에 참여하세요!

개발자 리소스

최신 설명서, 튜토리얼, 기술 블로그 등 NVIDIA Dynamo로 개발을 시작하는 데 필요한 모든 것을 살펴보세요.

개발 시작하기

문의하기

NVIDIA AI Enterprise의 보안, API 안정성, 지원을 통해 파일럿에서 프로덕션으로 전환하는 방법에 대해 NVIDIA 제품 전문가와 상담하세요.

문의하기

Snapchat이 Triton을 사용하여 쇼핑 경험을 향상시키는 방법 알아보기

Triton 모델 분석기가 모델 배포를 최적화하는 방법 알아보기

생성형 AI 성능 분석기 가이드 읽기

앙상블 모델을 사용하여 Triton에서 모델 파이프라인 제공 읽어보기

보도 자료 읽기 | 기술 블로그 읽기

블로그
세션
교육
비디오

기술 블로그 살펴보기

추론을 시작하는 방법에 대한 기술 안내를 읽어보세요.

모든 기술 LLM 추론 블로그 보기

자세히 알아보기

생성형 AI, LLM, 추천 시스템, 컴퓨터 비전 등에 대한 추론을 위한 AI 모델을 배포, 실행 및 확장하기 위한 팁과 모범 사례를 확인할 수 있습니다.

지금 읽기

모든 블로그 보기

LLM 배포, 최적화 및 벤치마킹

단계별 지침을 통해 LLM을 효율적으로 제공하는 방법을 알아보세요. 여러 백엔드에 LLM을 쉽게 배포하고 성능을 비교하는 방법과 최적의 성능을 위해 배포 구성을 파인튜닝하는 방법을 설명합니다.

온디맨드 GTC 세션 보기

개발에서 생산까지 엔터프라이즈 AI 사용 사례 살펴보기

AI 추론이 무엇인지, 그리고 이것이 기업의 AI 도입 전략에서 어떤 역할을 하는지 알아보세요. 또한, 엔터프라이즈급 AI 활용 사례를 배포할 때 마주치는 주요 과제와, 이를 해결하기 위해 풀스택 AI 추론 솔루션이 왜 필요한지, 그 솔루션을 구성하는 핵심 요소들은 무엇인지, 마지막으로 AI 추론 솔루션을 처음 배포하는 방법까지 단계별로 확인해보세요.

온디맨드 세션 보기