차세대 AI를 위해 구축된 슈퍼컴퓨터.
개요
NVIDIA Vera Rubin NVL72는 NVIDIA의 최첨단 기술 — 72개의 Rubin GPU, 36개의 Vera CPU, ConnectX®‑9 SuperNIC™, 그리고 BlueField®‑4 DPU — 를 통합한 시스템입니다. 이 플랫폼은 NVIDIA NVLink™ 6 스위치를 통해 랙 규모에서 확장 가능한 지능을 실현하고, NVIDIA Quantum-X800 InfiniBand 및 Spectrum‑X™ Ethernet을 통해 대규모 확장을 가능하게 하여 AI 산업 혁명을 본격적으로 가속화합니다. NVIDIA Groq 3 LPX 랙과 함께 구축될 경우, Vera Rubin NVL72는 조 단위(1 trillion) 파라미터 모델과 백만 토큰 맥락(context)을 처리하는 새로운 수준의 추론 성능을 제공합니다.
Vera Rubin NVL72는 3세대 NVIDIA MGX™ NVL72 랙 설계를 기반으로 제작되어 이전 세대에서 원활히 전환할 수 있습니다. 해당 시스템은 NVIDIA Blackwell 대비 GPU 수를 1/4로 줄인 학습 성능, 백만 토큰당 비용을 1/10로 절감한 추론 성능을 제공합니다. 케이블 없는 모듈형 트레이 설계와 80개 이상의 MGX 생태계 파트너의 지원을 통해, 이 랙 규모의 AI 슈퍼컴퓨터는 세계 최고 수준의 성능을 빠르게 배치할 수 있습니다.
성능
NVIDIA Rubin은 MoE(Mixture-of-Expert) 모델을 위한 NVIDIA Blackwell™ 아키텍처 대비 AI 학습에 필요한 GPU 수를 최대 4배 줄여줍니다.
예상 성능은 변경될 수 있습니다. 1개월의 고정 기간 내에 100T 토큰으로 학습된 10T MoE 모델에서 사용된 GPU 수입니다.
LLM 추론 성능은 변경될 수 있습니다. 32K/8K ISL/OSL을 사용하는 Kimi-K2-Thinking 모델을 기반으로 Blackwell NVL72와 Rubin NVL72를 비교한 100만 토큰당 비용입니다.
NVIDIA Rubin은 고도로 상호작용하고 심층 추론을 수행하는 에이전틱 AI를 위해 NVIDIA Blackwell 아키텍처 대비 100만 토큰당 10분의 1 비용으로 제공합니다.
기술 혁신
사양¹
| NVIDIA Vera Rubin NVL72 | NVIDIA Vera Rubin Superchip | NVIDIA Rubin GPU | |
|---|---|---|---|
| 구성 | 72개의 NVIDIA Rubin GPU | 36개의 NVIDIA Vera CPU | Rubin GPU 2개 | Vera CPU 1개 | 1 Rubin GPU |
| NVFP4 추론 | 3,600 PFLOPS | 100 PFLOPS | 50 PFLOPS |
| NVFP4² 훈련 | 2,520 PFLOPS | 70 PFLOPS | 35 PFLOPS |
| FP8/FP6² 훈련 | 1,260 PFLOPS | 35 PFLOPS | 17.5 PFLOPS |
| INT8² Dense | 18 POPS | 0.5 POPS | 0.25 POPS |
| FP16/BF16² Dense | 288 PFLOPS | 8 PFLOPS | 4 PFLOPS |
| TF32² Dense | 144 PFLOPS | 4 PFLOPS | 2 PFLOPS |
| FP32 | 9,360 TFLOPS | 260 TFLOPS | 130 TFLOPS |
| FP64 | 2,400 TFLOPS | 67TFLOPS | 33 TFLOPS |
| FP32 SGEMM³ | 28,800 TFLOPS | 800 TFLOPS | 400 TFLOPS |
| FP64 DGEMM³ | 14,400 TFLOPS | 400 TFLOPS | 200 TFLOPS |
| GPU 메모리 | 대역폭 | 20.7 TB HBM4 | 1,580 TB/s | 576 GB HBM4 | 44 TB/s | 288 GB HBM4 | 22 TB/s |
| NVLink 대역폭 | 260 TB/s | 7.2 TB/s | 3.6 TB/s |
| NVLink-C2C Bandwidth | 65 TB/s | 1.8 TB/s | - |
| CPU 코어 수 | 3,168개의 맞춤형 NVIDIA Olympus 코어(Arm 호환 가능) | 88개의 맞춤형 NVIDIA Olympus 코어(Arm 호환 가능) | - |
| CPU 메모리 | 54 TB LPDDR5X | 1.5 TB LPDDR5X | - |
| 총 NVIDIA + HBM4 칩 | 1,296 | 30 | 12 |
1. 예비 정보입니다. 모든 값은 최대치를 기준으로 하며, 변경될 수 있습니다.
2. 고밀도 사양
3. Tensor 코어 기반의 에뮬레이션 알고리즘을 사용할 때의 최대 성능.
시작하기
NVIDIA 뉴스레터를 구독하고 최신 뉴스와 다양한 업데이트를 받으세요.