모든 데이터 센터를 위한 AI 및 고성능 컴퓨팅(HPC) 성능 극대화
NVIDIA HGX™ 플랫폼은 NVIDIA GPU, NVIDIA Vera CPU, NVIDIA NVLink™, NVIDIA 네트워킹, 그리고 완전히 최적화된 AI 및 고성능 컴퓨팅(HPC) 소프트웨어 스택의 모든 성능을 결합하여 모든 데이터 센터에 최고의 애플리케이션 성능을 제공하고 가장 빠른 인사이트 도출을 지원합니다.
NVIDIA HGX Rubin NVL8은 8개의 NVIDIA Rubin GPU와 6세대 고속 NVLink 인터커넥트를 통합하여 HGX B200 대비 최대 10배 더 높은 토큰 팩토리 처리량을 제공하며, 4배 더 적은 GPU로 학습 성능을 일치시킵니다. NVIDIA Rubin 기반 HGX 시스템은 가장 까다로운 에이전틱 AI, 데이터 분석 및 HPC 워크로드를 위해 설계되었습니다. NVIDIA HGX Rubin NVL8은 NVIDIA Vera CPU(HGX Vera Rubin NVL8로 구성) 또는 x86 기반 CPU 베이스보드와 함께 사용할 수 있습니다.
대규모 에이전틱 AI 및 추론 모델을 제공하려면 극도의 추론 처리량이 필요합니다. 400 PFLOPS의 NVFP4 컴퓨팅, 176 TB/s의 3배 더 많은 메모리 대역폭, 고처리량 GPU 간 통신을 위한 28.8 TB/s의 NVLink Switch 대역폭을 포함한 아키텍처 혁신을 통해 HGX Rubin NVL8은 HGX B200 대비 10배 더 높은 토큰 팩토리 처리량을 제공합니다. 이러한 성능 향상 덕분에 AI 팩토리는 더 많은 사용자에게 서비스를 제공하고, 토큰 수익을 극대화하며, 토큰당 비용을 절감할 수 있습니다.
예상 성능은 변경될 수 있습니다. FTL<=500ms, ISL=4K, OSL=4K의 Kimi K2-Thinking 모델입니다. Sparse NVFP4를 갖춘 HGX Rubin NVL8, Dense NVFP4를 갖춘 HGX B200
예상 성능은 변경될 수 있습니다. 4K의 시퀀스 길이를 갖는 15T 토큰으로 사전 학습된 DeepSeek-R1을 기반으로 하는 GPU 수입니다.
HGX Rubin NVL8은 8개의 GPU 서버 폼 팩터에 획기적인 전문가 혼합 사전 학습을 제공하며, 4배 더 적은 GPU로 차세대 에이전틱 AI 모델을 학습하며, HGX B200 대비 4배 더 많은 NVFP4 학습 FLOPS, 1.6배 더 많은 고속 HBM 메모리 용량, 2배 더 많은 NVLink 대역폭을 포함한 아키텍처 혁신을 통해 가능합니다. 이러한 학습 효율성의 비약적인 향상을 통해 조직은 동일한 인프라 설치 공간에서 더 많은 모델을 학습하고, 모델 개발 비용을 절감하며, AI 인프라 투자 수익을 극대화할 수 있습니다.
NVIDIA Vera는 AI 시대를 위한 CPU로, 에이전틱 AI, 강화 학습 및 대규모 데이터 처리를 위해 특별히 설계되었습니다. NVIDIA Olympus 코어, 고대역폭 LPDDR5X 메모리 및 NVIDIA 확장 가능한 코히어런시 패브릭은 가속화된 컴퓨팅과 함께 빠르고 효율적인 CPU 실행을 제공하여 AI 팩토리가 더 많은 에이전트, 평가 및 데이터 파이프라인을 실행할 수 있도록 지원합니다.
AI 팩토리와 슈퍼컴퓨팅 센터는 단일 분산 컴퓨팅 엔진으로서 수천 개의 GPU를 포괄합니다. 가속기의 활용도를 극대화하기 위해 AI 및 과학 기술 워크로드는 결정론적 지연 시간, 무손실 처리량, 안정적인 반복 시간은 물론, 단일 데이터 센터를 넘어 여러 사이트로 확장할 수 있는 능력을 필요로 합니다.
NVIDIA 네트워킹은 NVIDIA NVLink 스케일업, NVIDIA Quantum InfiniBand 및 NVIDIA Spectrum-X™ 이더넷 스케일아웃, NVIDIA Spectrum-XGS 이더넷 멀티 데이터센터 스케일어크로스 기술을 통합한 풀스택 패브릭을 구축합니다. 여기에 인프라 서비스를 위한 NVIDIA® BlueField® DPU 및 NVIDIA DOCA™, 그리고 차세대 실리콘 포토닉스 플랫폼을 결합하여 세계에서 가장 고도화된 AI 데이터센터를 구현합니다.
NVIDIA HGX는 8개의 NVIDIA Rubin, NVIDIA Blackwell 또는 NVIDIA Blackwell Ultra SXM이 탑재된 단일 베이스보드 형태로 제공됩니다. Rubin GPU는 NVIDIA Vera CPU 또는 x86 기반 베이스보드와 페어링할 수 있습니다. 이러한 강력한 하드웨어 및 소프트웨어 조합은 전례 없는 AI 및 슈퍼컴퓨팅 성능의 기반을 마련합니다.
| System Specifications | NVIDIA HGX Vera Rubin NVL8<sup>1</sup> | NVIDIA HGX Rubin NVL8<sup>1</sup> |
|---|---|---|
| Configuration | 8x NVIDIA Rubin SXM with Single Socket Vera CPU | 8x NVIDIA Rubin SXM |
| CPU | Core Count | NVIDIA Vera CPU | 88 Custom NVIDIA Olympus Cores (Arm® compatible) with Spatial Multithreading (SMT) | x86 CPU<sup>4</sup> |
| CPU Memory | Bandwidth | 1.5TB LPDDR5X | 1.2 TB/s | x86 CPU<sup>4</sup> |
| NVFP4 Inference | 400 PFLOPS | |
| NVFP4 Training<sup>2</sup> | 280 PFLOPS | |
| FP8/FP6 Training<sup>2</sup> | 140 PFLOPS | |
| INT8<sup>2</sup> | 2 POPS | |
| FP16/BF16<sup>2</sup> | 32 PFLOPS | |
| TF32<sup>2</sup> | 16 PFLOPS | |
| FP32 | 1,040 TFLOPS | |
| FP64 | 265 TFLOPS | |
| FP32 SGEMM<sup>3</sup> | 3,200 TFLOPS | |
| FP64 DGEMM<sup>3</sup> | 1,600 TFLOPS | |
| GPU Memory | Bandwidth | 2.3 TB HBM4 | 176 TB/s | |
| NVLink Switch Bandwidth | 28.8 TB/s | |
| NVIDIA NVLink | Sixth Generation | |
| Networking Bandwidth | 1.6 TB/s | |
| Individual GPU Specifications | NVIDIA Rubin GPU<sup>1</sup> |
|---|---|
| NVFP4 Inference | 50 PFLOPS |
| NVFP4 Training<sup>2</sup> | 35 PFLOPS |
| FP8/FP6 Training<sup>2</sup> | 17.5 PFLOPS |
| INT8<sup>2</sup> | 250 TOPS |
| FP16/BF16<sup>2</sup> | 4 PFLOPS |
| TF32<sup>2</sup> | 2 PFLOPS |
| FP32 | 130 TFLOPS |
| FP64 | 33 TFLOPS |
| FP32 SGEMM<sup>2</sup> | 400 TFLOPS |
| FP64 DGEMM<sup>2</sup> | 200 TFLOPS |
| NVLink Bandwidth | 3.6 TB/s |
| NVIDIA NVLink | Sixth Generation |
| GPU Memory | Bandwidth | 288 GB HBM4 | 22 TB/s |
1. 예비 정보. 모든 값은 최대 값이며 변경될 수 있습니다. NVFP4 추론 사양은 희소합니다.
2. 고밀도 사양.
3. Tensor 코어 기반 에뮬레이션 알고리즘을 사용한 최고 성능.
4. CPU 및 메모리 사양은 OEM 제품에 의해 정의됩니다.
| HGX B300<sup>4</sup> | HGX B200<sup>4</sup> | |
|---|---|---|
| Form Factor | 8x NVIDIA Blackwell Ultra SXM | 8x NVIDIA Blackwell SXM |
| FP4 Tensor Core<sup>1</sup> | 144 PFLOPS | 108 PFLOPS | 144 PFLOPS | 72 PFLOPS |
| FP8/FP6 Tensor Core<sup>2</sup> | 72 PFLOPS | 72 PFLOPS |
| INT8 Tensor Core<sup>2</sup> | 3 POPS | 72 POPS |
| FP16/BF16 Tensor Core<sup>2</sup> | 36 PFLOPS | 36 PFLOPS |
| TF32 Tensor Core<sup>2</sup> | 18 PFLOPS | 18 PFLOPS |
| FP32 | 600 TFLOPS | 600 TFLOPS |
| FP64/FP64 Tensor Core | 10 TFLOPS | 296 TFLOPS |
| Total Memory | 2.1 TB | 1.4 TB |
| NVIDIA NVLink | Fifth generation | Fifth generation |
| NVIDIA NVLink Switch™ | NVLink 5 Switch | NVLink 5 Switch |
| NVLink GPU-to-GPU Bandwidth | 1.8 TB/s | 1.8 TB/s |
| Total NVLink Bandwidth | 14.4 TB/s | 14.4 TB/s |
| Networking Bandwidth | 1.6 TB/s | 0.8 TB/s |
| Attention Performance<sup>3</sup> | 2x | 1x |
1. 희소 모드 사양 | 밀집 사양
2. 희소 사양 밀도는 ½ 희소 사양으로 표시됩니다.
3. vs. NVIDIA Blackwell.
4. HGX B300 및 HGX B200이 현재 출하 중입니다.
NVIDIA Vera Rubin 플랫폼에 대해 자세히 알아보세요.