NVIDIA HGX 플랫폼

모든 데이터 센터를 위한 AI 및 고성능 컴퓨팅(HPC) 성능 극대화

개요

모든 데이터 센터를 위한 AI 및 고성능 컴퓨팅(HPC) 가속화

NVIDIA HGX™ 플랫폼은 NVIDIA GPU, NVIDIA Vera CPU, NVIDIA NVLink™, NVIDIA 네트워킹, 그리고 완전히 최적화된 AI 및 고성능 컴퓨팅(HPC) 소프트웨어 스택의 모든 성능을 결합하여 모든 데이터 센터에 최고의 애플리케이션 성능을 제공하고 가장 빠른 인사이트 도출을 지원합니다.

NVIDIA HGX Rubin NVL8은 8개의 NVIDIA Rubin GPU와 6세대 고속 NVLink 인터커넥트를 통합하여 HGX B200 대비 최대 10배 더 높은 토큰 팩토리 처리량을 제공하며, 4배 더 적은 GPU로 학습 성능을 일치시킵니다. NVIDIA Rubin 기반 HGX 시스템은 가장 까다로운 에이전틱 AI, 데이터 분석 및 HPC 워크로드를 위해 설계되었습니다. NVIDIA HGX Rubin NVL8은 NVIDIA Vera CPU(HGX Vera Rubin NVL8로 구성) 또는 x86 기반 CPU 베이스보드와 함께 사용할 수 있습니다.

전 세계 에이전틱 AI 팩토리 구동을 위한 NVIDIA Vera Rubin 양산 돌입

이제 NVIDIA Vera Rubin은 대만 최고의 서버 제조업체와 글로벌 공급망 선도 업체를 통해 본격적인 양산 단계에 돌입하여 Vera Rubin 기반의 시스템이 출하되고 있습니다. 이를 기반으로 AI 개발 연구소를 비롯한 클라우드 공급 업체 및 하이퍼스케일러 조직들은 미래 인텔리전스를 구축하는 데 추진력을 얻게 되었습니다.

차세대 에이전틱 AI 가속화

HGX Rubin NVL8로 토큰 팩토리 처리량 향상

대규모 에이전틱 AI 및 추론 모델을 제공하려면 극도의 추론 처리량이 필요합니다. 400 PFLOPS의 NVFP4 컴퓨팅, 176 TB/s의 3배 더 많은 메모리 대역폭, 고처리량 GPU 간 통신을 위한 28.8 TB/s의 NVLink Switch 대역폭을 포함한 아키텍처 혁신을 통해 HGX Rubin NVL8은 HGX B200 대비 10배 더 높은 토큰 팩토리 처리량을 제공합니다. 이러한 성능 향상 덕분에 AI 팩토리는 더 많은 사용자에게 서비스를 제공하고, 토큰 수익을 극대화하며, 토큰당 비용을 절감할 수 있습니다.

예상 성능은 변경될 수 있습니다. FTL<=500ms, ISL=4K, OSL=4K의 Kimi K2-Thinking 모델입니다. Sparse NVFP4를 갖춘 HGX Rubin NVL8, Dense NVFP4를 갖춘 HGX B200

예상 성능은 변경될 수 있습니다. 4K의 시퀀스 길이를 갖는 15T 토큰으로 사전 학습된 DeepSeek-R1을 기반으로 하는 GPU 수입니다. 

4배 더 적은 GPU를 통해 차세대 AI 모델 학습

HGX Rubin NVL8은 8개의 GPU 서버 폼 팩터에 획기적인 전문가 혼합 사전 학습을 제공하며, 4배 더 적은 GPU로 차세대 에이전틱 AI 모델을 학습하며, HGX B200 대비 4배 더 많은 NVFP4 학습 FLOPS, 1.6배 더 많은 고속 HBM 메모리 용량, 2배 더 많은 NVLink 대역폭을 포함한 아키텍처 혁신을 통해 가능합니다. 이러한 학습 효율성의 비약적인 향상을 통해 조직은 동일한 인프라 설치 공간에서 더 많은 모델을 학습하고, 모델 개발 비용을 절감하며, AI 인프라 투자 수익을 극대화할 수 있습니다.

NVIDIA Vera CPU

NVIDIA Vera CPU

NVIDIA Vera는 AI 시대를 위한 CPU로, 에이전틱 AI, 강화 학습 및 대규모 데이터 처리를 위해 특별히 설계되었습니다. NVIDIA Olympus 코어, 고대역폭 LPDDR5X 메모리 및 NVIDIA 확장 가능한 코히어런시 패브릭은 가속화된 컴퓨팅과 함께 빠르고 효율적인 CPU 실행을 제공하여 AI 팩토리가 더 많은 에이전트, 평가 및 데이터 파이프라인을 실행할 수 있도록 지원합니다. 

NVIDIA 네트워킹을 통한 HGX 가속화하기

AI 팩토리와 슈퍼컴퓨팅 센터는 단일 분산 컴퓨팅 엔진으로서 수천 개의 GPU를 포괄합니다. 가속기의 활용도를 극대화하기 위해 AI 및 과학 기술 워크로드는 결정론적 지연 시간, 무손실 처리량, 안정적인 반복 시간은 물론, 단일 데이터 센터를 넘어 여러 사이트로 확장할 수 있는 능력을 필요로 합니다.

NVIDIA 네트워킹은 NVIDIA NVLink 스케일업, NVIDIA Quantum InfiniBand 및 NVIDIA Spectrum-X™ 이더넷 스케일아웃, NVIDIA Spectrum-XGS 이더넷 멀티 데이터센터 스케일어크로스 기술을 통합한 풀스택 패브릭을 구축합니다. 여기에 인프라 서비스를 위한 NVIDIA® BlueField® DPU 및 NVIDIA DOCA™, 그리고 차세대 실리콘 포토닉스 플랫폼을 결합하여 세계에서 가장 고도화된 AI 데이터센터를 구현합니다.

NVIDIA HGX 스펙

NVIDIA HGX는 8개의 NVIDIA Rubin, NVIDIA Blackwell 또는 NVIDIA Blackwell Ultra SXM이 탑재된 단일 베이스보드 형태로 제공됩니다. Rubin GPU는 NVIDIA Vera CPU 또는 x86 기반 베이스보드와 페어링할 수 있습니다. 이러한 강력한 하드웨어 및 소프트웨어 조합은 전례 없는 AI 및 슈퍼컴퓨팅 성능의 기반을 마련합니다.

System Specifications NVIDIA HGX Vera Rubin NVL8<sup>1</sup> NVIDIA HGX Rubin NVL8<sup>1</sup>
Configuration 8x NVIDIA Rubin SXM with Single Socket Vera CPU 8x NVIDIA Rubin SXM
CPU | Core Count NVIDIA Vera CPU | 88 Custom NVIDIA Olympus Cores (Arm® compatible) with Spatial Multithreading (SMT) x86 CPU<sup>4</sup>
CPU Memory | Bandwidth 1.5TB LPDDR5X | 1.2 TB/s x86 CPU<sup>4</sup>
NVFP4 Inference 400 PFLOPS
NVFP4 Training<sup>2</sup> 280 PFLOPS
FP8/FP6 Training<sup>2</sup> 140 PFLOPS
INT8<sup>2</sup> 2 POPS
FP16/BF16<sup>2</sup> 32 PFLOPS
TF32<sup>2</sup> 16 PFLOPS
FP32 1,040 TFLOPS
FP64 265 TFLOPS
FP32 SGEMM<sup>3</sup> 3,200 TFLOPS
FP64 DGEMM<sup>3</sup> 1,600 TFLOPS
GPU Memory | Bandwidth 2.3 TB HBM4 | 176 TB/s
NVLink Switch Bandwidth 28.8 TB/s
NVIDIA NVLink Sixth Generation
Networking Bandwidth 1.6 TB/s
Individual GPU Specifications NVIDIA Rubin GPU<sup>1</sup>
NVFP4 Inference 50 PFLOPS
NVFP4 Training<sup>2</sup> 35 PFLOPS
FP8/FP6 Training<sup>2</sup> 17.5 PFLOPS
INT8<sup>2</sup> 250 TOPS
FP16/BF16<sup>2</sup> 4 PFLOPS
TF32<sup>2</sup> 2 PFLOPS
FP32 130 TFLOPS
FP64 33 TFLOPS
FP32 SGEMM<sup>2</sup> 400 TFLOPS
FP64 DGEMM<sup>2</sup> 200 TFLOPS
NVLink Bandwidth 3.6 TB/s
NVIDIA NVLink Sixth Generation
GPU Memory | Bandwidth 288 GB HBM4 | 22 TB/s

1. 예비 정보. 모든 값은 최대 값이며 변경될 수 있습니다. NVFP4 추론 사양은 희소합니다.
2. 고밀도 사양.
3. Tensor 코어 기반 에뮬레이션 알고리즘을 사용한 최고 성능.
4. CPU 및 메모리 사양은 OEM 제품에 의해 정의됩니다.

HGX B300<sup>4</sup> HGX B200<sup>4</sup>
Form Factor 8x NVIDIA Blackwell Ultra SXM 8x NVIDIA Blackwell SXM
FP4 Tensor Core<sup>1</sup> 144 PFLOPS | 108 PFLOPS 144 PFLOPS | 72 PFLOPS
FP8/FP6 Tensor Core<sup>2</sup> 72 PFLOPS 72 PFLOPS
INT8 Tensor Core<sup>2</sup> 3 POPS 72 POPS
FP16/BF16 Tensor Core<sup>2</sup> 36 PFLOPS 36 PFLOPS
TF32 Tensor Core<sup>2</sup> 18 PFLOPS 18 PFLOPS
FP32 600 TFLOPS 600 TFLOPS
FP64/FP64 Tensor Core 10 TFLOPS 296 TFLOPS
Total Memory 2.1 TB 1.4 TB
NVIDIA NVLink Fifth generation Fifth generation
NVIDIA NVLink Switch™ NVLink 5 Switch NVLink 5 Switch
NVLink GPU-to-GPU Bandwidth 1.8 TB/s 1.8 TB/s
Total NVLink Bandwidth 14.4 TB/s 14.4 TB/s
Networking Bandwidth 1.6 TB/s 0.8 TB/s
Attention Performance<sup>3</sup> 2x 1x

1. 희소 모드 사양 | 밀집 사양
2. 희소 사양 밀도는 ½ 희소 사양으로 표시됩니다.
3. vs. NVIDIA Blackwell.
4. HGX B300 및 HGX B200이 현재 출하 중입니다.

HGX B300 HGX B200
Form Factor 8x NVIDIA Blackwell Ultra SXM 8x NVIDIA Blackwell SXM
FP4 Tensor Core<sup>1</sup> 144 PFLOPS | 108 PFLOPS 144 PFLOPS | 72 PFLOPS
FP8/FP6 Tensor Core<sup>2</sup> 72 PFLOPS 72 PFLOPS
INT8 Tensor Core<sup>2</sup> 3 POPS 72 POPS
FP16/BF16 Tensor Core<sup>2</sup> 36 PFLOPS 36 PFLOPS
TF32 Tensor Core<sup>2</sup> 18 PFLOPS 18 PFLOPS
FP32 600 TFLOPS 600 TFLOPS
FP64/FP64 Tensor Core 10 TFLOPS 296 TFLOPS
Total Memory 2.1 TB 1.4 TB
NVIDIA NVLink Fifth generation Fifth generation
NVIDIA NVLink Switch™ NVLink 5 Switch NVLink 5 Switch
NVLink GPU-to-GPU Bandwidth 1.8 TB/s 1.8 TB/s
Total NVLink Bandwidth 14.4 TB/s 14.4 TB/s
Networking Bandwidth 1.6 TB/s 0.8 TB/s
Attention Performance<sup>3</sup> 2x 1x

NVIDIA Vera Rubin 플랫폼에 대해 자세히 알아보세요.