싱글 랙 NVIDIA Vera Rubin NVL72

NVIDIA Vera Rubin NVL72

차세대 AI를 위해 구축된 슈퍼컴퓨터.

개요

6개의 새로운 칩, 1개의 AI 슈퍼컴퓨터

NVIDIA Vera Rubin NVL72는 NVIDIA의 최첨단 기술 — 72개의 Rubin GPU, 36개의 Vera CPU, ConnectX®‑9 SuperNIC™, 그리고 BlueField®‑4 DPU — 를 통합한 시스템입니다. 이 플랫폼은 NVIDIA NVLink™ 6 스위치를 통해 랙 규모에서 확장 가능한 지능을 실현하고, NVIDIA Quantum-X800 InfiniBand 및 Spectrum‑X™ Ethernet을 통해 대규모 확장을 가능하게 하여 AI 산업 혁명을 본격적으로 가속화합니다. NVIDIA Groq 3 LPX 랙과 함께 구축될 경우, Vera Rubin NVL72는 조 단위(1 trillion) 파라미터 모델과 백만 토큰 맥락(context)을 처리하는 새로운 수준의 추론 성능을 제공합니다.

Vera Rubin NVL72는 3세대 NVIDIA MGX™ NVL72 랙 설계를 기반으로 제작되어 이전 세대에서 원활히 전환할 수 있습니다. 해당 시스템은 NVIDIA Blackwell 대비 GPU 수를 1/4로 줄인 학습 성능, 백만 토큰당 비용을 1/10로 절감한 추론 성능을 제공합니다. 케이블 없는 모듈형 트레이 설계와 80개 이상의 MGX 생태계 파트너의 지원을 통해, 이 랙 규모의 AI 슈퍼컴퓨터는 세계 최고 수준의 성능을 빠르게 배치할 수 있습니다.

NVIDIA, Rubin으로 차세대 AI 시대의 포문을 열다

이 최첨단 플랫폼은 다섯 가지 혁신을 통해 추론 및 에이전트형 AI 모델을 지원함으로써 토큰당 비용을 크게 절감하고, 대중적인 도입을 확산시킵니다.

NVIDIA Vera Rubin, 에이전틱 AI의 새로운 지평을 열다.

NVIDIA Vera Rubin 플랫폼은 전 세계 최대 규모의 AI 팩토리를 확장하기 위해 새롭게 출시되고 현재 양산 중인 7개의 신규 칩을 제공합니다.

성능

AI 학습과 추론에서의 대규모 효율 향상

학습 효율 향상

NVIDIA Rubin은 MoE(Mixture-of-Expert) 모델을 위한 NVIDIA Blackwell™ 아키텍처 대비 AI 학습에 필요한 GPU 수를 최대 4배 줄여줍니다.

예상 성능은 변경될 수 있습니다. 1개월의 고정 기간 내에 100T 토큰으로 학습된 10T MoE 모델에서 사용된 GPU 수입니다.

LLM 추론 성능은 변경될 수 있습니다. 32K/8K ISL/OSL을 사용하는 Kimi-K2-Thinking 모델을 기반으로 Blackwell NVL72와 Rubin NVL72를 비교한 100만 토큰당 비용입니다.

추론 비용 절감

NVIDIA Rubin은 고도로 상호작용하고 심층 추론을 수행하는 에이전틱 AI를 위해 NVIDIA Blackwell 아키텍처 대비 100만 토큰당 10분의 1 비용으로 제공합니다.

기술 혁신

AI 슈퍼컴퓨터 내

NVIDIA Rubin GPU

HBM4와 50 PF NVFP4 트랜스포머 엔진을 탑재한 Rubin GPU는 차세대 AI를 위해 설계되었습니다.

NVIDIA Vera CPU

Vera CPU는 데이터 이동과 에이전틱 추론을 위해 특별히 제작되었으며, 결정론적 성능과 함께 고대역폭의 에너지 효율적인 컴퓨팅을 제공합니다.

NVIDIA NVLink 6 Switch

NVLink 6 스위치는 GPU당 3.6TB/s의 올투올(all-to-all) 스케일 업 대역폭을 갖추고 있으며, AI를 위한 GPU 간 고속 통신을 지원합니다.

NVIDIA ConnectX-9 SuperNIC

ConnectX‑9 SuperNIC는 PCIe Gen6를 통해 GPU당 1.6Tb/s의 대역폭을 제공합니다. 또한 프로그래밍 가능한 원격 직접 메모리 액세스(RDMA)를 통해, 대규모 환경에서도 지연 시간이 낮은 GPUDirect 네트워킹을 지원합니다.

NVIDIA BlueField-4 DPU

BlueField-4 DPU는 AI 팩토리의 스토리지, 네트워킹, 사이버 보안 및 탄력적 확장 전반에 걸쳐 데이터 처리를 가속합니다.

공동 패키징 광학 기술이 적용된 NVIDIA Spectrum-X 이더넷

실리콘 포토닉스가 통합된 Spectrum‑X 이더넷 스케일 아웃 스위치는 플러그형 트랜시버를 사용하는 기존 네트워킹 대비 5배 더 우수한 전력 효율성, 10배 더 높은 네트워크 회복 탄력성 및 최대 5배 더 긴 가동 시간을 제공합니다.

NVIDIA Groq 3 LPU

이는 NVIDIA Vera Rubin NVL72를 위한 추론 가속기로, 에이전틱 시스템의 저지연 및 대규모 컨텍스트 처리 요구를 충족하도록 설계되었습니다. NVIDIA Groq 3 LPX 랙은 256개의 LPU, 128GB의 SRAM, 초당 40PB의 메모리 대역폭, 그리고 랙당 640TB/s의 확장 대역폭을 갖추고 있습니다. Vera Rubin NVL72와 공동 설계되어 전력당 35배의 추론 성능과 조 단위 파라미터 모델에서 Blackwell 대비 최대 10배의 수익 기회를 제공합니다.

사양¹

NVIDIA Vera Rubin NVL72 사양

  NVIDIA Vera Rubin NVL72 NVIDIA Vera Rubin Superchip NVIDIA Rubin GPU
구성 72개의 NVIDIA Rubin GPU | 36개의 NVIDIA Vera CPU Rubin GPU 2개 | Vera CPU 1개 1 Rubin GPU
NVFP4 추론 3,600 PFLOPS 100 PFLOPS 50 PFLOPS
NVFP4² 훈련 2,520 PFLOPS 70 PFLOPS 35 PFLOPS
FP8/FP6² 훈련 1,260 PFLOPS 35 PFLOPS 17.5 PFLOPS
INT8² Dense 18 POPS 0.5 POPS 0.25 POPS
FP16/BF16² Dense 288 PFLOPS 8 PFLOPS 4 PFLOPS
TF32² Dense 144 PFLOPS 4 PFLOPS 2 PFLOPS
FP32 9,360 TFLOPS 260 TFLOPS 130 TFLOPS
FP64 2,400 TFLOPS 67TFLOPS 33 TFLOPS
FP32 SGEMM³ 28,800 TFLOPS 800 TFLOPS 400 TFLOPS
FP64 DGEMM³ 14,400 TFLOPS 400 TFLOPS 200 TFLOPS
GPU 메모리 | 대역폭 20.7 TB HBM4 | 1,580 TB/s 576 GB HBM4 | 44 TB/s 288 GB HBM4 | 22 TB/s
NVLink 대역폭 260 TB/s 7.2 TB/s 3.6 TB/s
NVLink-C2C Bandwidth 65 TB/s 1.8 TB/s -
CPU 코어 수 3,168개의 맞춤형 NVIDIA Olympus 코어(Arm 호환 가능) 88개의 맞춤형 NVIDIA Olympus 코어(Arm 호환 가능) -
CPU 메모리 54 TB LPDDR5X 1.5 TB LPDDR5X -
총 NVIDIA + HBM4 칩 1,296 30 12

1. 예비 정보입니다. 모든 값은 최대치를 기준으로 하며, 변경될 수 있습니다.
2. 고밀도 사양
3. Tensor 코어 기반의 에뮬레이션 알고리즘을 사용할 때의 최대 성능.

시작하기

최신 NVIDIA 뉴스 구독하기

NVIDIA 뉴스레터를 구독하고 최신 뉴스와 다양한 업데이트를 받으세요.