NVIDIA Vera Rubin NVL72

차세대 AI를 위해 구축된 슈퍼컴퓨터.

개요

7개의 새로운 칩과 1대의 AI 슈퍼컴퓨터

NVIDIA Vera Rubin NVL72는 NVIDIA의 최첨단 기술 — 72개의 Rubin GPU, 36개의 Vera CPU, ConnectX®‑9 SuperNIC™, 그리고 BlueField®‑4 DPU — 를 통합한 시스템입니다. 이 플랫폼은 NVIDIA NVLink™ 6 스위치를 통해 랙 규모에서 확장 가능한 지능을 실현하고, NVIDIA Quantum-X800 InfiniBand 및 Spectrum‑X™ Ethernet을 통해 대규모 확장을 가능하게 하여 AI 산업 혁명을 본격적으로 가속화합니다. NVIDIA Groq 3 LPX 랙과 함께 구축될 경우, Vera Rubin NVL72는 조 단위(1 trillion) 파라미터 모델과 백만 토큰 맥락(context)을 처리하는 새로운 수준의 추론 성능을 제공합니다.

Vera Rubin NVL72는 3세대 NVIDIA MGX™ NVL72 랙 설계를 기반으로 제작되어 이전 세대에서 원활히 전환할 수 있습니다. 해당 시스템은 NVIDIA Blackwell 대비 GPU 수를 1/4로 줄인 학습 성능, 백만 토큰당 비용을 1/10로 절감한 추론 성능을 제공합니다. 케이블 없는 모듈형 트레이 설계와 80개 이상의 MGX 생태계 파트너의 지원을 통해, 이 랙 규모의 AI 슈퍼컴퓨터는 세계 최고 수준의 성능을 빠르게 배치할 수 있습니다.

NVIDIA, Rubin으로 차세대 AI 시대의 포문을 열다

이 최첨단 플랫폼은 다섯 가지 혁신을 통해 추론 및 에이전트형 AI 모델을 지원함으로써 토큰당 비용을 크게 절감하고, 대중적인 도입을 확산시킵니다.

블로그 읽기

NVIDIA Vera Rubin, 에이전틱 AI의 새로운 지평을 열다.

NVIDIA Vera Rubin 플랫폼은 전 세계 최대 규모의 AI 팩토리를 확장하기 위해 새롭게 출시되고 현재 양산 중인 7개의 신규 칩을 제공합니다.

블로그 읽기

성능

AI 학습과 추론에서의 대규모 효율 향상

학습 효율 향상

NVIDIA Rubin은 MoE(Mixture-of-Expert) 모델을 위한 NVIDIA Blackwell™ 아키텍처 대비 AI 학습에 필요한 GPU 수를 최대 4배 줄여줍니다.

예상 성능은 변경될 수 있습니다. 1개월의 고정 기간 내에 100T 토큰으로 학습된 10T MoE 모델에서 사용된 GPU 수입니다.

LLM 추론 성능은 변경될 수 있습니다. 32K/8K ISL/OSL을 사용하는 Kimi-K2-Thinking 모델을 기반으로 Blackwell NVL72와 Rubin NVL72를 비교한 100만 토큰당 비용입니다.

추론 비용 절감

NVIDIA Rubin은 고도로 상호작용하고 심층 추론을 수행하는 에이전틱 AI를 위해 NVIDIA Blackwell 아키텍처 대비 100만 토큰당 10분의 1 비용으로 제공합니다.

기술 혁신

AI 슈퍼컴퓨터 내

NVIDIA Rubin GPU

HBM4와 50 PF NVFP4 트랜스포머 엔진을 탑재한 Rubin GPU는 차세대 AI를 위해 설계되었습니다.

자세히 알아보기

NVIDIA Vera CPU

Vera CPU는 데이터 이동과 에이전틱 추론을 위해 특별히 제작되었으며, 결정론적 성능과 함께 고대역폭의 에너지 효율적인 컴퓨팅을 제공합니다.

자세히 알아보기

NVIDIA NVLink 6 Switch

NVLink 6 스위치는 GPU당 3.6TB/s의 올투올(all-to-all) 스케일 업 대역폭을 갖추고 있으며, AI를 위한 GPU 간 고속 통신을 지원합니다.

자세히 알아보기

NVIDIA ConnectX-9 SuperNIC

ConnectX‑9 SuperNIC는 PCIe Gen6를 통해 GPU당 1.6Tb/s의 대역폭을 제공합니다. 또한 프로그래밍 가능한 원격 직접 메모리 액세스(RDMA)를 통해, 대규모 환경에서도 지연 시간이 낮은 GPUDirect 네트워킹을 지원합니다.

자세히 알아보기

NVIDIA BlueField-4 DPU

BlueField-4 DPU는 AI 팩토리의 스토리지, 네트워킹, 사이버 보안 및 탄력적 확장 전반에 걸쳐 데이터 처리를 가속합니다.

자세히 알아보기

공동 패키징 광학 기술이 적용된 NVIDIA Spectrum-X 이더넷

실리콘 포토닉스가 통합된 Spectrum‑X 이더넷 스케일 아웃 스위치는 플러그형 트랜시버를 사용하는 기존 네트워킹 대비 5배 더 우수한 전력 효율성, 10배 더 높은 네트워크 회복 탄력성 및 최대 5배 더 긴 가동 시간을 제공합니다.

자세히 알아보기

NVIDIA Groq 3 LPU

이는 NVIDIA Vera Rubin NVL72를 위한 추론 가속기로, 에이전틱 시스템의 저지연 및 대규모 컨텍스트 처리 요구를 충족하도록 설계되었습니다. NVIDIA Groq 3 LPX 랙은 256개의 LPU, 128GB의 SRAM, 초당 40PB의 메모리 대역폭, 그리고 랙당 640TB/s의 확장 대역폭을 갖추고 있습니다. Vera Rubin NVL72와 공동 설계되어 전력당 35배의 추론 성능과 조 단위 파라미터 모델에서 Blackwell 대비 최대 10배의 수익 기회를 제공합니다.

자세히 알아보기

사양¹