데이터 센터를 위한 AI 스토리지 생태계
차세대 AI를 위해 추론 스토리지를 재설계하다.
개요
NVIDIA® CMX™ 컨텍스트 메모리 스토리지는 롱 컨텍스트, 멀티턴 및 에이전트 AI 추론을 위한 AI 네이티브 컨텍스트 계층입니다. NVIDIA BlueField®‑4 스토리지 프로세서를 기반으로 하는 이 제품은 임시 키-값(KV) 캐시에 최적화된 공유 포드 레벨의 컨텍스트 계층을 통해 GPU 메모리를 확장합니다. 이 플랫폼은 대규모 추론 워크로드의 지연 시간, 비용 및 전력 오버헤드를 줄이는 고대역폭 경로를 제공하여 NVIDIA Rubin 플랫폼에서 더 높은 처리량과 뛰어난 전력 효율성을 구현할 수 있습니다.
제품
가속화된 컨텍스트 메모리와 안전한 데이터 이동부터 이더넷 패브릭 및 추론 프레임워크에 이르기까지, NVIDIA CMX는 컴퓨팅, 네트워킹, 스토리지 및 소프트웨어 전반에 걸친 극한의 공동 설계가 만들어낸 결실입니다.
제품 이점
NVIDIA CMX는 기존 스토리지 접근 방식 대비 KV 캐시 집약적인 긴 컨텍스트 워크로드의 지속적인 처리량과 전력 효율성을 향상시키는 전용 컨텍스트 계층을 도입합니다.
필수 전력을 회수하는 고효율 KV 캐시 최적화 스토리지 계층을 통해 AI 서비스를 확장하고, 기존 스토리지 대신 GPU에 데이터 센터 전력 예산을 더 많이 할당할 수 있도록 하세요.
데이터 경로를 최적화하고 CMX 계층의 사전 계산된 KV 캐시를 재계산하지 않고 재사용하여 지연을 줄입니다. 이는 멀티턴 에이전트 추론에서 초당 토큰 처리량과 전체 처리량을 향상시킵니다. CMX는 첫 토큰 생성 시간과 마지막 토큰 생성 시간을 줄여, 모델, 컨텍스트 윈도우, 동시성이 증가하더라도 응답이 더 빨리 스트리밍되고 더 빠르게 완료되도록 합니다.
AI 네이티브 컨텍스트에 대한 포드 전반의 고속 접근을 제공하여 멀티턴 에이전트가 조정하고 상태를 공유하며 워크로드 증가에 따라 원활하게 확장할 수 있도록 지원하는 동시에, KV 캐시 중복과 노드 전반의 유휴 용량을 줄입니다.
대규모 KV 캐시 용량을 제공하여 긴 컨텍스트 추론, 멀티 에이전트 워크플로, 조 단위 파라미터 모델, 그리고 많은 동시 사용자를 위한 더 긴 컨텍스트 윈도우를 지원합니다.
NVIDIA STX는 AI 스토리지용 모듈형 참조 아키텍처로, 선도적인 스토리지 파트너와 공동 설계되었으며 NVIDIA 가속 컴퓨팅, 네트워킹 및 AI 소프트웨어를 기반으로 구축되었습니다. NVIDIA STX는 학습 및 분석부터 실시간 에이전틱 추론에 이르기까지 전체 AI 라이프사이클을 가속하는 범용 데이터 엔진 구축을 위한 기반을 제공합니다.
생태계
리소스
시작하려면 NVIDIA 엔터프라이즈 영업팀 또는 NVIDIA 파트너 네트워크(NPN) 프로그램의 적합한 파트너에게 문의하세요.
NVIDIA 전문가와 귀사의 비즈니스 니즈에 대해 상담해 보세요.
NVIDIA 뉴스레터를 구독하고 최신 뉴스와 다양한 업데이트를 받으세요.