AI 추론

NVIDIA Dynamo

생성형 AI를 빠르게 확장하고 제공해 보세요.

개요

생성형 AI를 위한
초저지연 분산 추론

NVIDIA Dynamo는 분산 환경에서 생성형 AI 모델을 제공하기 위한 오픈소스 모듈형 추론 프레임워크입니다. 동적 리소스 스케줄링, 지능형 요청 라우팅, 메모리 최적화, 고속 데이터 전송을 통해 대규모 GPU 플릿 전반에서 추론 워크로드를 원활하게 확장할 수 있습니다.

NVIDIA GB200 NVL72에서 오픈소스 DeepSeek-R1 671B 추론 모델을 실행한 결과, NVIDIA Dynamo는 처리 가능한 요청 수를 최대 30배 증가시켰습니다. 이를 통해 토큰 기반 수익 창출을 극대화하면서도 가능한 한 낮은 비용으로 운영하려는 AI 팩토리에 이상적인 솔루션으로 자리 잡았습니다.

또한 NVIDIA Dynamo는 주요 AI 추론 백엔드를 모두 지원하며, 분산 서비스, AI 추론 모델의 가속과 확장 등 거대 언어 모델(LLM)에 특화된 최적화를 최소 비용으로 최고의 효율로 제공합니다. 앞으로는 NVIDIA AI Enterprise의 일부로 지원될 예정입니다.

 

 

 

 

분산 추론이란 무엇인가요?

분산 추론은 여러 컴퓨팅 장치 또는 노드에 걸쳐 AI 모델 추론을 실행하여 연산을 병렬화함으로써 처리량을 극대화하는 프로세스입니다. 

이러한 접근 방식을 통해 GPU 또는 클라우드 인프라 전반에 워크로드를 분산하여 생성형 AI와 같은 대규모 AI 애플리케이션을 효율적으로 확장할 수 있습니다. 분산 추론은 사용자가 각 워크로드의 고유한 요구 사항에 맞게 지연 시간과 처리량을 최적화할 수 있도록 하여 전체 성능과 리소스 활용도를 향상시킵니다.

특징

NVIDIA Dynamo의 특징 살펴보기

분산된 서버

개별 GPU 전반에 걸쳐 LLM 컨텍스트(사전 채우기)와 생성(디코딩) 단계를 분리하여 맞춤형 모델 병렬 처리 및 독립적인 GPU 할당을 가능하게 하여 GPU당 처리되는 요청이 증가합니다.

GPU 플래너

분산 추론 환경에서 GPU 용량을 모니터링하고 컨텍스트 및 생성 단계에 걸쳐 GPU 작업자를 동적으로 할당하여 병목 현상을 해결하고 성능을 최적화합니다.

스마트 라우터

추론 트래픽을 효율적으로 라우팅하여 컴퓨팅 리소스를 보호하고, 반복되거나 중첩되는 요청의 비용 부담이 큰 재계산을 최소화하면서 대규모 GPU 플릿 전반에 걸쳐 균형 잡힌 로드 분산을 보장합니다.

짧은 지연 시간 통신 라이브러리

분산 추론 설정에서 데이터 이동을 가속화하면서 GPU, CPU, 네트워크 및 스토리지를 포함한 다양한 하드웨어에 걸쳐 전송 복잡성을 간소화합니다.

이점

NVIDIA Dynamo의 이점

GPU를 1개에서 수천 개의 GPU로 원활하게 확장

사전 구축된 배포하기 쉬운 도구를 사용하여 GPU 클러스터 설정을 간소화 및 자동화하고, 실시간 LLM별 지표를 사용하여 동적 자동 확장을 지원하면서 GPU 리소스를 초과 또는 부족하게 프로비저닝하지 않도록 합니다.

비용을 절감하면서 추론 제공 용량 증가

분산된 처리 등의 최적화를 적용해 고급 LLM 추론을 활용함으로써, 사용자 경험을 저하시키지 않으면서 처리할 수 있는 추론 요청의 수를 증가시킵니다.

AI 인프라를 미래에도 사용할 수 있게 만들고 비용이 많이 드는 마이그레이션 피하기

개방형 및 모듈형 설계를 통해 고유한 요구 사항에 적합한 추론 제공 구성 요소를 쉽게 선택할 수 있어 기존 AI 스택과의 호환성을 보장하고 비용이 많이 드는 마이그레이션 프로젝트를 피할 수 있습니다.

프로덕션에서 새로운 AI 모델을 배포하는 시간 단축

NVIDIA Dynamo는 TensorRT-LLM, vLLM, SGLang, 파이토치 등을 포함한 모든 주요 프레임워크를 지원하므로 백엔드에 관계없이 새로운 생성형 AI 모델을 빠르게 배포할 수 있습니다.

분산 추론 가속화

NVIDIA Dynamo는 완전한 오픈소스 프로젝트로, 투명성과 유연성을 모두 제공합니다.
직접 배포하고, 프로젝트 발전에 기여하며, 기존 기술 스택에 자연스럽게 통합할 수 있습니다.

GitHub에서 확인하고 커뮤니티에 함께하세요!

개발

개발을 위한 Triton 추론 서버 오픈소스 코드에 액세스하려는 개인의 경우.

개발

개발을 위해 무료 Triton 추론 서버 컨테이너에 액세스하려는 개인의 경우.

경험

단계별 지침과 예제가 포함된 NVIDIA 호스팅 인프라 및 가이드 실습 랩에 액세스하세요. NVIDIA LaunchPad에서 무료로 사용할 수 있습니다.

배포하기

기존 인프라를 사용하여 90일 동안 프로덕션 환경에서 NVIDIA AI Enterprise를 무료로 사용해 볼 수 있는 무료 라이선스를 받으세요.

사용 사례

NVIDIA Dynamo를 활용한 AI 배포

NVIDIA Dynamo를 사용하여 혁신을 주도하는 방법에 대해 알아보세요.

추론 모델 서빙

추론 모델은 복잡한 문제를 해결하기 위한 더 많은 토큰을 생성하여 추론 비용을 늘립니다. NVIDIA Dynamo는 분리형 처리와 같은 기능을 사용하여 이러한 모델을 최적화합니다. 이러한 접근 방식을 통해 사전 채우기 및 디코딩 연산 단계를 별도의 GPU로 분리하여 AI 추론 팀이 각 단계를 독립적으로 최적화할 수 있도록 합니다. 그 결과, 리소스 활용도가 개선되고, GPU당 더 많은 쿼리가 처리되며, 추론 비용이 절감됩니다.

분산 추론

AI 모델이 너무 커져서 단일 노드에 들어갈 수 없게 되면서 이를 효율적으로 제공하기가 어려워집니다. 분산 추론은 여러 노드에 걸쳐 모델을 분할해야 하므로 오케스트레이션, 확장 및 통신의 복잡성을 가속화합니다. 이러한 노드가 특히 동적 워크로드에서 통합된 단위로 작동하도록 하려면 주의 깊게 관리해야 합니다. NVIDIA Dynamo는 쿠버네티스에 사전 구축된 기능을 제공하여 스케줄링, 확장 및 서빙을 원활하게 처리함으로써 이를 간소화하므로 인프라 관리가 아닌 AI를 배포하는 데 집중할 수 있습니다.

확장 가능한 AI 에이전트

AI 에이전트는 LLM, 검색 시스템 및 특수 도구 등 실시간으로 동기화하여 작동하는 여러 모델을 활용합니다. 이러한 에이전트를 확장하는 것은 복잡한 과제이므로 응답성을 유지하기 위해 지능형 GPU 스케줄링, 효율적인 KV 캐시 관리 및 초저지연 통신이 필요합니다.
NVIDIA Dynamo는 내장 지능형 GPU 플래너, 스마트 라우터 및 짧은 지연 시간 통신 라이브러리를 사용하여 이 프로세스를 간소화하면서 AI 에이전트를 원활하고 효율적으로 확장합니다.

 

코드 생성

코드를 생성하기 위해 프롬프트를 조정하고, 요구 사항을 명확하게 하며, 모델의 응답을 기반으로 출력을 디버깅하기 위해 반복적으로 개선해야 하는 경우가 많습니다. 이러한 앞뒤 이동은 사용자가 턴할 때마다 컨텍스트를 재계산해야 하여 추론 비용이 증가합니다. NVIDIA Dynamo는 컨텍스트 재사용 및 비용 효율적인 메모리로 오프로드하면서 비용이 많이 드는 재계산을 최소화하고 전체 추론 비용을 절감하여 이 프로세스를 최적화합니다.

고객 후기

NVIDIA Dynamo에 대한 업계 리더들의 의견 보기


Cohere

"고급 AI 모델을 확장하려면 정교한 다중 GPU 스케줄링, 원활한 조정 및 메모리 및 스토리지에 걸쳐 추론 컨텍스트를 원활하게 전송하는 짧은 지연 시간 통신 라이브러리가 필요합니다. Dynamo가 기업 고객에게 최고의 사용자 경험을 제공하는데 도움이 될 것으로 기대합니다."  Saurabh Baji, 엔지니어링 부문 수석 부사장, Cohere **


Perplexity AI

"매달 수억 개의 요청을 처리하며 NVIDIA의 GPU와 추론 소프트웨어를 활용하여 성능, 안정성을 제공하고 비즈니스 및 사용자 수요를 확장합니다. "Dynamo를 활용하여 향상된 분산 서빙 기능을 활용하여 더 많은 추론 서빙 효율성을 높이고 새로운 AI 추론 모델의 컴퓨팅 수요를 충족하길 기대합니다." Denis Yarats, CTO, Perplexity AI


Together AI

"추론 모델을 비용 효율적으로 확장하려면 분산된 서빙 및 컨텍스트 인식 라우팅을 포함한 새로운 고급 추론 기법이 필요합니다. AI는 독점 추론 엔진을 사용하여 업계 최고의 성능을 제공합니다. Dynamo의 개방성과 모듈성 덕분에 엔진에 구성 요소를 원활하게 연결하여 더 많은 요청을 처리하면서 리소스 활용도를 최적화하여 가속 컴퓨팅 투자를 극대화할 수 있습니다. " Ce Zhang, CTO, Together AI

Cohere

"고급 AI 모델을 확장하려면 정교한 다중 GPU 스케줄링, 원활한 조정 및 메모리 및 스토리지에 걸쳐 추론 컨텍스트를 원활하게 전송하는 짧은 지연 시간 통신 라이브러리가 필요합니다. NVIDIA Dynamo가 기업 고객에게 최고의 사용자 경험을 제공할 수 있도록 지원할 것으로 기대합니다."  Saurabh Baji, 엔지니어링 부문 수석 부사장, Cohere

Perplexity AI

"매달 수억 건의 요청을 처리하면서, NVIDIA의 GPU와 추론 소프트웨어를 활용해 성능과 안정성을 확보하고 비즈니스와 사용자 수요에 맞춰 확장하고 있습니다."또한 NVIDIA Dynamo의 향상된 분산 서빙 기능을 통해 추론 효율을 더욱 높이고, 새롭게 등장하는 AI 모델들의 높은 연산 수요도 효과적으로 감당하길 기대하고 있습니다." Denis Yarats, CTO, Perplexity AI

Together AI

"추론 모델을 비용 효율적으로 확장하려면 분산된 서빙 및 컨텍스트 인식 라우팅을 포함한 새로운 고급 추론 기법이 필요합니다. AI는 독점 추론 엔진을 사용하여 업계 최고의 성능을 제공합니다. NVIDIA Dynamo의 개방성과 모듈성 덕분에 엔진에 구성 요소를 원활하게 연결하여 더 많은 요청을 처리하면서 리소스 활용도를 최적화하여 가속 컴퓨팅 투자를 극대화할 수 있습니다."  Ce Zhang, CTO, Together AI

채택 업체

모든 산업 분야에서의 선도적인 채택 기업

리소스

NVIDIA 추론 최신 소식

최신 뉴스 받기

NVIDIA Dynamo 추론 서버에 대한 최신 추론 업데이트 및 발표 내용에 대해 읽어보세요.

기술 블로그 살펴보기

추론을 시작하는 방법에 대한 기술 안내를 읽어보세요.

자세히 알아보기

생성형 AI, LLM, 추천 시스템, 컴퓨터 비전 등에 대한 추론을 위한 AI 모델을 배포, 실행 및 확장하기 위한 팁과 모범 사례를 확인할 수 있습니다.

LLM 배포, 최적화 및 벤치마킹

단계별 지침을 통해 LLM을 효율적으로 제공하는 방법을 알아보세요. 여러 백엔드에 LLM을 쉽게 배포하고 성능을 비교하는 방법과 최적의 성능을 위해 배포 구성을 fine-tuning하는 방법을 설명합니다.

개발에서 생산까지 엔터프라이즈 AI 사용 사례 살펴보기

AI 추론이 무엇인지, 기업의 AI 배포 전략에 어떻게 적합한지, 엔터프라이즈급 AI 사용 사례를 배포하는 데 있어서 중요한 과제가 무엇인지, 이러한 과제를 해결하기 위해 풀 스택 AI 추론 솔루션이 필요한 이유가 무엇인지, 풀 스택 플랫폼의 주요 구성 요소가 무엇인지, 첫 번째 AI 추론 솔루션을 배포하는 방법이 무엇인지에 대해 알아보세요.

클라우드 지원 AI 추론 솔루션의 성능 활용하기

NVIDIA AI 추론 플랫폼이 어떻게 선도적인 클라우드 서비스 제공업체와 원활하게 통합되어 배포를 간소화하고 LLM 기반 AI 사용 사례의 출시를 가속화하는지 살펴보세요.

빠른 시작 가이드

NVIDIA Dynamo를 처음 사용하여 모델을 빠르게 배포하고 싶으신가요? 이 빠른 시작 가이드를 사용하여 NVIDIA Dynamo 여정을 시작하세요.

튜토리얼

NVIDIA Dynamo를 시작하면 많은 궁금증이 생길 수 있습니다. 이 리포지토리를 살펴보고, NVIDIA Dynamo의 기능에 익숙해지며, 마이그레이션을 용이하게 하는 데 도움이 되는 가이드 및 예제를 찾아보세요.

NVIDIA LaunchPad

핸즈온 랩에서 NVIDIA Dynamo를 사용하여 빠르고 확장 가능한 AI를 경험하세요. NVIDIA의 가속화된 컴퓨팅 인프라의 이점을 즉시 활용하고 AI 워크로드를 확장할 수 있습니다.

NVIDIA Dynamo가 추론을 간소화하는 상위 5가지 이유

NVIDIA Dynamo 추론 서버는 프로덕션 환경에서 규모가 큰 AI 모델의 배포를 간소화하여, 팀은 로컬 스토리지 또는 클라우드 플랫폼의 모든 프레임워크에서 학습된 AI 모델을 GPU 또는 CPU 기반 인프라에 배포할 수 있습니다.

NVIDIA Dynamo를 활용하여 HuggingFace의 안정적인 확산 파이프라인 배포

이 비디오는 HuggingFace 디퓨저 라이브러리를 통해 제공되는 Stable Diffusion 파이프라인을 배포하는 것을 보여줍니다. NVIDIA Dynamo 추론 서버를 사용하여 파이프라인을 배포하고 실행합니다.

NVIDIA Dynamo 추론 서버 시작하기

NVIDIA Dynamo는 모델 배포를 표준화하고 프로덕션에서 빠르고 확장 가능한 AI를 지원하는 오픈 소스 추론 솔루션입니다. 많은 기능 때문에 ‘어디에서 시작해야 하는가?’라는 질문을 던지면 자연스럽습니다. 시청하여 알아보세요.

다음 단계

시작할 준비가 되셨나요?

GitHub에서 다운로드하고 커뮤니티에 참여하세요!

개발자용

최신 설명서, 튜토리얼, 기술 블로그 등 NVIDIA Dynamo로 개발을 시작하는 데 필요한 모든 것을 살펴보세요.

문의하기

NVIDIA AI Enterprise의 보안, API 안정성, 지원을 통해 파일럿에서 프로덕션으로 전환하는 방법에 대해 NVIDIA 제품 전문가와 상담하세요.

보도 자료 읽기 | 기술 블로그 읽기

최신 뉴스 받기

Dynamo 추론 서버에 대한 최신 추론 업데이트 및 발표 내용에 대해 읽어보세요.

기술 블로그 살펴보기

추론을 시작하는 방법에 대한 기술 안내를 읽어보세요.

자세히 알아보기

생성형 AI, LLM, 추천 시스템, 컴퓨터 비전 등에 대한 추론을 위한 AI 모델을 배포, 실행 및 확장하기 위한 팁과 모범 사례를 확인할 수 있습니다.

LLM 배포, 최적화 및 벤치마킹

단계별 지침을 통해 LLM을 효율적으로 제공하는 방법을 알아보세요. 여러 백엔드에 LLM을 쉽게 배포하고 성능을 비교하는 방법과 최적의 성능을 위해 배포 구성을 fine-tuning하는 방법을 설명합니다.

개발에서 생산까지 엔터프라이즈 AI 사용 사례 살펴보기

AI 추론이 무엇인지, 기업의 AI 배포 전략에 어떻게 적합한지, 엔터프라이즈급 AI 사용 사례를 배포하는 데 있어서 중요한 과제가 무엇인지, 이러한 과제를 해결하기 위해 풀 스택 AI 추론 솔루션이 필요한 이유가 무엇인지, 풀 스택 플랫폼의 주요 구성 요소가 무엇인지, 첫 번째 AI 추론 솔루션을 배포하는 방법이 무엇인지에 대해 알아보세요.

클라우드 지원 AI 추론 솔루션의 성능 활용하기

NVIDIA AI 추론 플랫폼이 어떻게 선도적인 클라우드 서비스 제공업체와 원활하게 통합되어 배포를 간소화하고 LLM 기반 AI 사용 사례의 출시를 가속화하는지 살펴보세요.

빠른 시작 가이드

NVIDIA Dynamo를 처음 사용하여 모델을 빠르게 배포하고 싶으신가요? 이 빠른 시작 가이드를 사용하여 Dynamo 여정을 시작하세요.

튜토리얼

Dynamo를 시작하면 많은 궁금증이 생길 수 있습니다. 이 리포지토리를 살펴보고, Dynamo의 기능에 익숙해지며, 마이그레이션을 용이하게 하는 데 도움이 되는 가이드 및 예제를 찾아보세요.

NVIDIA LaunchPad

핸즈온 랩에서 NVIDIA Dynamo를 사용하여 빠르고 확장 가능한 AI를 경험하세요. NVIDIA의 가속화된 컴퓨팅 인프라의 이점을 즉시 활용하고 AI 워크로드를 확장할 수 있습니다. 

Dynamo가 추론을 간소화하는 상위 5가지 이유

NVIDIA Dynamo 추론 서버는 프로덕션 환경에서 규모가 큰 AI 모델의 배포를 간소화하여, 팀은 로컬 스토리지 또는 클라우드 플랫폼의 모든 프레임워크에서 학습된 AI 모델을 GPU 또는 CPU 기반 인프라에 배포할 수 있습니다.

Dynamo로 HuggingFace의 Stable Diffusion 파이프라인 배포

이 비디오는 HuggingFace 디퓨저 라이브러리를 통해 제공되는 Stable Diffusion 파이프라인을 배포하는 것을 보여줍니다. Dynamo 추론 서버를 사용하여 파이프라인을 배포하고 실행합니다.

NVIDIA Dynamo 추론 서버 시작하기

Dynamo 추론 서버는 모델 배포를 표준화하고 프로덕션에서 빠르고 확장 가능한 AI를 지원하는 오픈 소스 추론 솔루션입니다. 많은 기능 때문에 ‘어디에서 시작해야 하는가?’라는 질문을 던지면 자연스럽습니다. 시청하여 알아보세요.