차세대 AI를 위해 구축된 슈퍼컴퓨터
개요
NVIDIA Vera Rubin NVL72에는 72개의 Rubin GPU, 36개의 Vera CPU, ConnectX®-9 SuperNIC, BlueField®-4 DPU 등의 NVIDIA의 첨단 기술이 통합되어 있습니다. 이 플랫폼은 NVIDIA NVLink™ 6 스위치를 통해 단일 랙 스케일 플랫폼에서 인텔리전스를 확장하며, NVIDIA Quantum-X800 InfiniBand 및 Spectrum-X™ 이더넷을 통한 유연한 수평 확장을 지원해 AI 산업 혁명을 견인합니다.
3세대 NVIDIA MGX™ NVL72 랙 디자인을 기반으로 구축된 Vera Rubin NVL72는 이전 세대 대비 원활한 전환을 제공하며, 최대 4배 적은 GPU 및 Blackwell 대비 토큰당 1/10의 10 비용으로 AI 추론 학습 성능을 제공합니다. 케이블 없는 모듈형 트레이 설계와 80개 이상의 MGX 에코시스템 파트너 지원을 갖춘 랙 스케일 AI 슈퍼컴퓨터는 신속한 배포가 가능하며 세계 최고 수준의 성능을 제공합니다.
성능
NVIDIA Rubin은 MoE(Mixture-of-Expert) 모델을 위한 NVIDIA Blackwell™ 아키텍처 대비 AI 학습에 필요한 GPU 수를 최대 4배 줄여줍니다.
예상 성능은 변경될 수 있습니다. 1개월의 고정 기간 내에 100T 토큰으로 학습된 10T MoE 모델에서 사용된 GPU 수입니다.
LLM 추론 성능은 변경될 수 있습니다. 832K/18K ISL/OSL을 사용하여 Kimi-K2-Thinking 모델을 기반으로 Blackwell GB200 NVL72와 Rubin NVL72를 비교한 100만 토큰당 비용입니다.
NVIDIA Rubin은 고도로 상호작용하고 심층 추론을 수행하는 에이전틱 AI를 위해 NVIDIA Blackwell 아키텍처 대비 100만 토큰당 10분의 1 비용으로 제공합니다.
기술 혁신
사양¹
| NVIDIA Vera Rubin NVL72 | NVIDIA Vera Rubin Superchip | NVIDIA Rubin GPU | |
|---|---|---|---|
| 구성 | 72개의 NVIDIA Rubin GPU | 36개의 NVIDIA Vera CPU | Rubin GPU 2개 | Vera CPU 1개 | 1 Rubin GPU |
| NVFP4 추론 | 3,600 PFLOPS | 100 PFLOPS | 50 PFLOPS |
| NVFP4 훈련 | 2,520 PFLOPS | 70 PFLOPS | 35 PFLOPS |
| FP8/FP6 훈련 | 1,260 PFLOPS | 35 PFLOPS | 17.5 PFLOPS |
| INT8² Dense | 18 POPS | 0.5 POPS | 0.25 POPS |
| FP16/BF16² Dense | 288 PFLOPS | 8 PFLOPS | 4 PFLOPS |
| TF32² Dense | 144 PFLOPS | 4 PFLOPS | 2 PFLOPS |
| FP32 | 9,360 TFLOPS | 260 TFLOPS | 130 TFLOPS |
| FP64 | 2,400 TFLOPS | 67TFLOPS | 33 TFLOPS |
| FP32 SGEMM³ | 28,800 TFLOPS | 800 TFLOPS | 400 TFLOPS |
| FP64 DGEMM³ | 14,400 TFLOPS | 400 TFLOPS | 200 TFLOPS |
| GPU 메모리 | 대역폭 | 20.7 TB HBM4 | 1,580 TB/s | 576 GB HBM4 | 44 TB/s | 288 GB HBM4 | 22 TB/s |
| NVLink 대역폭 | 260 TB/s | 7.2 TB/s | 3.6 TB/s |
| NVLink-C2C Bandwidth | 65 TB/s | 1.8 TB/s | - |
| CPU 코어 수 | 3,168개의 맞춤형 NVIDIA Olympus 코어(Arm 호환 가능) | 88개의 맞춤형 NVIDIA Olympus 코어(Arm 호환 가능) | - |
| CPU 메모리 | 54 TB LPDDR5X | 1.5 TB LPDDR5X | - |
| 총 NVIDIA + HBM4 칩 | 1,296 | 30 | 12 |
1. 예비 정보입니다. 모든 값은 최대치를 기준으로 하며, 변경될 수 있습니다.
2. 고밀도 사양
3. Tensor 코어 기반의 에뮬레이션 알고리즘을 사용할 때의 최대 성능.
시작하기
NVIDIA 뉴스레터를 구독하고 최신 뉴스와 다양한 업데이트를 받으세요.