개요
AI 추론은 챗봇, 코파일럿, 창작 도구 등 AI를 경험하는 방식의 핵심으로, 현재 기하급수적으로 빠르게 확장되고 있습니다. 사용자 도입은 가속화되고 있으며, 에이전틱 워크플로우, 긴 사고형 추론, MoE(전문가 혼합) 모델을 통해 상호작용마다 생성되는 AI 토큰도 동시에 급증하고 있습니다.
이러한 대규모 추론을 구현하기 위해, NVIDIA는 매년 데이터 센터 규모의 아키텍처를 제공하고 있습니다. 극한의 하드웨어와 소프트웨어 공동 설계는 성능의 획기적인 도약을 실현하고 토큰당 비용을 절감하여, 고급 AI 경험의 대규모 경제적 실현을 가능하게 합니다.
NVIDIA GB300 NVL72는 Hopper™ 대비 와트당 50배 더 많은 토큰과 35배 더 낮은 토큰 비용을 제공하여, 동일한 전력 예산 내에서 수익을 극대화하고 이익률을 높입니다. 지속적인 소프트웨어 최적화는 칩, 랙, 데이터 센터 규모에서 최대의 성능을 구현하며, 시간이 지남에 따라 투자 수익률을 한층 더 높입니다.
이점
익스트림 하드웨어 및 소프트웨어 공동 설계를 갖춘 NVIDIA GB300 NVL72는 Hopper 대비 와트당 50배 더 많은 토큰을 제공하여, 동일한 전력 예산 내에서 AI 팩토리 수익을 극대화합니다. 지속적인 소프트웨어 최적화는 칩, 랙, 데이터 센터 규모에서 최대의 성능을 구현하며, 시간이 지남에 따라 투자 수익률을 한층 더 높입니다.
NVIDIA GB300 NVL72 시스템은 NVIDIA Hopper 플랫폼 대비 토큰당 비용이 35배 저렴하여, AI 팩토리의 이익률을 높여줍니다. 각 세대마다 성능 향상 속도가 인프라 비용을 훨씬 능가하며, 대규모 고급 AI 경험을 구현할 수 있는 더 나은 경제성을 제공합니다.
NVIDIA는 생성형 AI, 기존 ML, 과학 컴퓨팅, 생물학, 피지컬 AI 전반에 걸쳐 모든 모델을 지원합니다. NVIDIA는 지연 시간에 민감한 실시간 애플리케이션부터 고처리량의 배치 처리에 이르기까지 모든 사용 사례에 맞게 최상의 성능을 제공합니다. 이 플랫폼은 진화하는 워크로드와 비즈니스 요구 사항에 맞게 최적의 구성을 선택할 수 있는 최대의 유연성과 프로그래밍 기능을 제공합니다.
Dynamo 및 TensorRT™ LLM을 포함한 NVIDIA의 실제 사용 소프트웨어와 파이토치, vLLM, SGLang, llm-d와 같은 선도적인 프레임워크와의 네이티브 통합은 가장 강력한 AI 추론 스택을 제공합니다. 모델 아키텍처와 추론 기술이 빠르게 발전함에 따라, NVIDIA 스택은 혁신에서 실제 운영에 이르는 가장 빠른 경로를 보장합니다.
플랫폼
스마트 오케스트레이션이 없는 강력한 하드웨어는 잠재력을 낭비하며, 빠른 하드웨어가 없는 훌륭한 소프트웨어는 추론 성능이 저하됨을 의미합니다. NVIDIA의 추론 플랫폼은 공동 설계된 컴퓨팅, 네트워킹, 스토리지 및 소프트웨어를 갖춘 지속적으로 최적화된 풀스택 솔루션을 제공하여, 다양한 워크로드에서 최고 수준의 성능을 구현합니다.
몇 가지 주요 NVIDIA 하드웨어 및 소프트웨어 혁신을 살펴보세요.
고객 사례
리소스
다음 단계