하나의 프롬프트에 대해 하나의 토큰 세트로 응답을 얻는 것. 이것이 바로 AI 추론입니다. 모델의 크기와 복잡성이 증가함에 따라, 조직은 이 새로운 AI 스케일링 법칙 시대에 성공하기 위해 풀 스택 접근 방식과 엔드 투 엔드 도구를 필요로 합니다.
추론 모델이 기하급수적으로 더 많은 AI 토큰을 생성하면서, 컴퓨팅 수요가 급증하고 있습니다. 이러한 수요를 충족하려면 AI 팩토리가 필요합니다. 이 인프라는 산업 전반에서 성능, 효율성, ROI를 제공하도록 설계되었습니다.
풀스택 추론 최적화는 AI 팩토리 규모로 AI를 확장하는 데 있어 현명하게 생각하고 행동할 수 있는 핵심입니다.
NVIDIA Blackwell은 AI 팩토리 수익을 극대화하며, 최대 15배의 투자 수익률(ROI) 을 실현할 수 있습니다. 이러한 성과는 NVIDIA Blackwell, NVLink™, NVLink Switch를 통한 확장형 공동 설계, 저정밀 연산에서도 높은 정확도를 제공하는 NVFP4, 그리고 속도와 유연성을 갖춘 NVIDIA Dynamo와 TensorRT™ LLM 덕분에 가능했습니다. 또한 SGLang, vLLM 등 오픈 커뮤니티 프레임워크와의 긴밀한 연동도 중요한 역할을 했습니다.
DeepSeek-R1 8K/1K 결과는 NVIDIA Blackwell GB200 NVL72가 Hopper H200 대비 15배의 성능 향상과 수익 기회를 제공합니다.
퍼블릭 클라우드, 온프레미스 데이터센터 및 엣지의 도구 및 플랫폼과 쉽게 통합됩니다.
NVIDIA AI 추론에는 NVIDIA Dynamo 플랫폼, TensorRT™-LLM, NVIDIA NIM™ 그리고 여러 도구들이 포함되어 있으며, 이를 통해 AI 애플리케이션의 구축, 공유, 배포를 간소화할 수 있습니다. NVIDIA의 추론 플랫폼은 최고 수준의 오픈소스 도구를 통합하고 성능을 가속화하며, 엔터프라이즈급 인프라, 소프트웨어, 에코시스템 전반에서 확장 가능하고 신뢰할 수 있는 배포를 가능하게 합니다.
NVIDIA 가속 인프라에 최적화된 NVIDIA AI 추론 소프트웨어로 독보적으로 탁월한 AI 성능을 확보하세요. NVIDIA Blackwell Ultra, H200 GPU, NVIDIA RTX PRO™ 6000 Blackwell Server Edition, 그리고 NVIDIA RTX™ 기술은 데이터센터, 클라우드, 워크스테이션 전반에서 AI 추론 워크로드에 탁월한 속도와 효율성을 제공합니다.