싱글 랙 NVIDIA Vera Rubin NVL72

NVIDIA Vera Rubin NVL72

차세대 AI를 위해 구축된 슈퍼컴퓨터

개요

6개의 새로운 칩, 1개의 AI 슈퍼컴퓨터

NVIDIA Vera Rubin NVL72에는 72개의 Rubin GPU, 36개의 Vera CPU, ConnectX®-9 SuperNIC, BlueField®-4 DPU 등의 NVIDIA의 첨단 기술이 통합되어 있습니다. 이 플랫폼은 NVIDIA NVLink™ 6 스위치를 통해 단일 랙 스케일 플랫폼에서 인텔리전스를 확장하며, NVIDIA Quantum-X800 InfiniBand 및 Spectrum-X™ 이더넷을 통한 유연한 수평 확장을 지원해 AI 산업 혁명을 견인합니다.

3세대 NVIDIA MGX™ NVL72 랙 디자인을 기반으로 구축된 Vera Rubin NVL72는 이전 세대 대비 원활한 전환을 제공하며, 최대 4배 적은 GPU 및 Blackwell 대비 토큰당 1/10의 10 비용으로 AI 추론 학습 성능을 제공합니다. 케이블 없는 모듈형 트레이 설계와 80개 이상의 MGX 에코시스템 파트너 지원을 갖춘 랙 스케일 AI 슈퍼컴퓨터는 신속한 배포가 가능하며 세계 최고 수준의 성능을 제공합니다.

NVIDIA, Rubin과 함께 차세대 AI의 시작을 알리다

차세대 플랫폼은 주류 시장으로의 도입을 전방위적으로 확대하며, 추론 및 에이전틱 AI 모델을 위한 5가지 혁신적 기술을 통해 토큰당 비용을 획기적으로 낮춥니다.

NVIDIA Rubin 플랫폼 내부: 6개의 신규 칩, 하나의 AI 슈퍼컴퓨터

익스트림 코드사인을 통해 구축된 NVIDIA Vera Rubin은 칩이 아닌 데이터센터를 컴퓨팅 단위로 취급하며, 대규모 인텔리전스를 효율적이고 안전하며 예측 가능한 방식으로 생산할 수 있는 새로운 기반을 마련합니다.

성능

AI 학습과 추론에서의 대규모 효율 향상

학습 효율 향상

NVIDIA Rubin은 MoE(Mixture-of-Expert) 모델을 위한 NVIDIA Blackwell™ 아키텍처 대비 AI 학습에 필요한 GPU 수를 최대 4배 줄여줍니다.

예상 성능은 변경될 수 있습니다. 1개월의 고정 기간 내에 100T 토큰으로 학습된 10T MoE 모델에서 사용된 GPU 수입니다.

LLM 추론 성능은 변경될 수 있습니다. 832K/18K ISL/OSL을 사용하여 Kimi-K2-Thinking 모델을 기반으로 Blackwell GB200 NVL72와 Rubin NVL72를 비교한 100만 토큰당 비용입니다.

추론 비용 절감

NVIDIA Rubin은 고도로 상호작용하고 심층 추론을 수행하는 에이전틱 AI를 위해 NVIDIA Blackwell 아키텍처 대비 100만 토큰당 10분의 1 비용으로 제공합니다.

기술 혁신

AI 슈퍼컴퓨터 내

NVIDIA Rubin GPU

HBM4와 50 PF NVFP4 트랜스포머 엔진을 탑재한 Rubin GPU는 차세대 AI를 위해 설계되었습니다.

NVIDIA Vera CPU

Vera CPU는 데이터 이동과 에이전틱 추론을 위해 특별히 제작되었으며, 결정론적 성능과 함께 고대역폭의 에너지 효율적인 컴퓨팅을 제공합니다.

NVIDIA NVLink 6 Switch

NVLink 6 스위치는 GPU당 3.6TB/s의 올투올(all-to-all) 스케일 업 대역폭을 갖추고 있으며, AI를 위한 GPU 간 고속 통신을 지원합니다.

NVIDIA ConnectX-9 SuperNIC

ConnectX‑9 SuperNIC는 PCIe Gen6를 통해 GPU당 1.6Tb/s의 대역폭을 제공합니다. 또한 프로그래밍 가능한 원격 직접 메모리 액세스(RDMA)를 통해, 대규모 환경에서도 지연 시간이 낮은 GPUDirect 네트워킹을 지원합니다.

NVIDIA BlueField-4 DPU

BlueField-4 DPU는 AI 팩토리의 스토리지, 네트워킹, 사이버 보안 및 탄력적 확장 전반에 걸쳐 데이터 처리를 가속합니다.

공동 패키징 광학 기술이 적용된 NVIDIA Spectrum-X 이더넷

실리콘 포토닉스가 통합된 Spectrum‑X 이더넷 스케일 아웃 스위치는 플러그형 트랜시버를 사용하는 기존 네트워킹 대비 5배 더 우수한 전력 효율성, 10배 더 높은 네트워크 회복 탄력성 및 최대 5배 더 긴 가동 시간을 제공합니다.

사양¹

NVIDIA Vera Rubin NVL72 사양

  NVIDIA Vera Rubin NVL72 NVIDIA Vera Rubin Superchip NVIDIA Rubin GPU
구성 72개의 NVIDIA Rubin GPU | 36개의 NVIDIA Vera CPU Rubin GPU 2개 | Vera CPU 1개 1 Rubin GPU
NVFP4 추론 3,600 PFLOPS 100 PFLOPS 50 PFLOPS
NVFP4 훈련 2,520 PFLOPS 70 PFLOPS 35 PFLOPS
FP8/FP6 훈련 1,260 PFLOPS 35 PFLOPS 17.5 PFLOPS
INT8² Dense 18 POPS 0.5 POPS 0.25 POPS
FP16/BF16² Dense 288 PFLOPS 8 PFLOPS 4 PFLOPS
TF32² Dense 144 PFLOPS 4 PFLOPS 2 PFLOPS
FP32 9,360 TFLOPS 260 TFLOPS 130 TFLOPS
FP64 2,400 TFLOPS 67TFLOPS 33 TFLOPS
FP32 SGEMM³ 28,800 TFLOPS 800 TFLOPS 400 TFLOPS
FP64 DGEMM³ 14,400 TFLOPS 400 TFLOPS 200 TFLOPS
GPU 메모리 | 대역폭 20.7 TB HBM4 | 1,580 TB/s 576 GB HBM4 | 44 TB/s 288 GB HBM4 | 22 TB/s
NVLink 대역폭 260 TB/s 7.2 TB/s 3.6 TB/s
NVLink-C2C Bandwidth 65 TB/s 1.8 TB/s -
CPU 코어 수 3,168개의 맞춤형 NVIDIA Olympus 코어(Arm 호환 가능) 88개의 맞춤형 NVIDIA Olympus 코어(Arm 호환 가능) -
CPU 메모리 54 TB LPDDR5X 1.5 TB LPDDR5X -
총 NVIDIA + HBM4 칩 1,296 30 12

1. 예비 정보입니다. 모든 값은 최대치를 기준으로 하며, 변경될 수 있습니다.
2. 고밀도 사양
3. Tensor 코어 기반의 에뮬레이션 알고리즘을 사용할 때의 최대 성능.

시작하기

최신 NVIDIA 뉴스 구독하기

NVIDIA 뉴스레터를 구독하고 최신 뉴스와 다양한 업데이트를 받으세요.