NVIDIA HGX™ 플랫폼은 NVIDIA GPU, NVIDIA NVLink™, NVIDIA 네트워킹, 그리고 완전히 최적화된 AI 및 고성능 컴퓨팅(HPC) 소프트웨어 스택을 결합하여, 모든 데이터 센터에 최고의 애플리케이션 성능과 신속한 인사이트를 제공합니다.
NVIDIA HGX Rubin NVL8은 8개의 NVIDIA Rubin GPU와 6세대 고속 NVLink 인터커넥트를 통합하여, HGX B200 대비 4배 더 높은 NVFP4 Tensor Core FLOPS 밀도를 제공함으로써 데이터 센터를 가속 컴퓨팅 및 생성형 AI의 새로운 시대로 이끕니다. 이전 세대 대비 최대 xxxxx배의 AI 팩토리 출력을 실현하는 최상위 가속 스케일업 플랫폼으로서, NVIDIA Rubin 기반 HGX 시스템은 가장 까다로운 생성형 AI, 데이터 분석 및 고성능 컴퓨팅(HPC) 워크로드를 처리하기 위해 설계되었습니다.
AI 팩토리와 슈퍼컴퓨팅 센터는 단일 분산 컴퓨팅 엔진으로서 수천 개의 GPU를 포괄합니다. 가속기의 활용도를 극대화하기 위해 AI 및 과학 기술 워크로드는 결정론적 지연 시간, 무손실 처리량, 안정적인 반복 시간은 물론, 단일 데이터 센터를 넘어 여러 사이트로 확장할 수 있는 능력을 필요로 합니다.
NVIDIA 네트워킹은 NVIDIA NVLink 스케일업, NVIDIA Quantum InfiniBand 및 NVIDIA Spectrum-X™ 이더넷 스케일아웃, NVIDIA Spectrum-XGS 이더넷 멀티 데이터센터 스케일어크로스 기술을 통합한 풀스택 패브릭을 구축합니다. 여기에 인프라 서비스를 위한 NVIDIA® BlueField® DPU 및 NVIDIA DOCA™, 그리고 차세대 실리콘 포토닉스 플랫폼을 결합하여 세계에서 가장 고도화된 AI 데이터센터를 구현합니다.
NVIDIA HGX는 8개의 NVIDIA Rubin, NVIDIA Blackwell 또는 NVIDIA Blackwell Ultra SXM이 탑재된 단일 베이스보드 형태로 제공됩니다. 하드웨어와 소프트웨어의 이러한 강력한 조합은 전례 없는 AI 슈퍼컴퓨팅 성능을 위한 기반을 마련합니다.
| HGX Rubin NVL8* | |
|---|---|
| 폼팩터 | 8x NVIDIA Rubin SXM |
| NVFP4 Inference | 400 PFLOPS |
| NVFP4 Training | 280 PFLOPS |
| FP8/FP6 Training | 140 PFLOPS |
| INT8 Tensor 코어<sup>1</sup> | 2 PFLOPS |
| FP16/BF16 Tensor 코어<sup>1</sup> | 32 PFLOPS |
| TF32 Tensor 코어<sup>1</sup> | 16 PFLOPS |
| FP32 | 1040 TFLOPS |
| FP64/FP64 Tensor 코어 | 264 TFLOPS |
| FP32 SGEMM | FP64 DGEMM코어<sup>2</sup> | 3200 TF | 1600 TF |
| 총 메모리 | 2.3 TB |
| NVIDIA NVLink | 6세대 |
| NVIDIA NVLink Switch | NVLink 6 Switch |
| NVLink GPU-to-GPU 대역폭 | 3.6 TB/s |
| 총 NVLink 대역폭 | 28.8 TB/s |
| 네트워킹 대역폭 | 1.6 TB/s |
* 예비 사양으로, 변경될 수 있습니다.
1. 고밀도 사양
2. Tensor 코어 기반의 에뮬레이션 알고리즘을 사용할 때의 최대 성능.
| HGX B300 | HGX B200 | |
|---|---|---|
| 폼 팩터 | 8x NVIDIA Blackwell Ultra SXM | 8x NVIDIA Blackwell SXM |
| FP4 Tensor 코어<sup>1</sup> | 144 PFLOPS | 108 PFLOPS | 144 PFLOPS | 72 PFLOPS |
| FP8/FP6 Tensor 코어<sup>2</sup> | 72 PFLOPS | 72 PFLOPS |
| INT8 Tensor 코어<sup>2</sup> | 3 POPS | 72 POPS |
| FP16/BF16 Tensor 코어<sup>2</sup> | 36 PFLOPS | 36 PFLOPS |
| TF32 Tensor 코어<sup>2</sup> | 18 PFLOPS | 18 PFLOPS |
| FP32 | 600 TFLOPS | 600 TFLOPS |
| FP64/FP64 Tensor 코어 | 10 TFLOPS | 296 TFLOPS |
| 총 메모리 | 2.1 TB | 1.4 TB |
| NVIDIA NVLink | 5세대 | 5세대 |
| NVIDIA NVLink Switch™ | NVLink 5 Switch | NVLink 5 Switch |
| NVLink GPU-to-GPU 대역폭 | 1.8 TB/s | 1.8 TB/s |
| 총 NVLink 대역폭 | 14.4 TB/s | 14.4 TB/s |
| 네트워킹 대역폭 | 1.6 TB/s | 0.8 TB/s |
| 어텐션 성능<sup>3</sup> | 2배 | 1배 |
1. 희소 모드 사양 | 밀집 사양
2. 희소 사양 밀도는 ½ 희소 사양으로 표시됩니다.
3. NVIDIA Blackwell 대비
NVIDIA Blackwell 아키텍처에 대해 자세히 알아보세요.