NVIDIA HGX 플랫폼

모든 데이터 센터를 위한 AI 및 고성능 컴퓨팅(HPC) 성능 극대화

개요

모든 데이터 센터를 위한 AI 및 고성능 컴퓨팅(HPC) 가속화

NVIDIA HGX™ 플랫폼은 NVIDIA GPU, NVIDIA NVLink™, NVIDIA 네트워킹, 그리고 완전히 최적화된 AI 및 고성능 컴퓨팅(HPC) 소프트웨어 스택을 결합하여, 모든 데이터 센터에 최고의 애플리케이션 성능과 신속한 인사이트를 제공합니다.

NVIDIA HGX Rubin NVL8은 8개의 NVIDIA Rubin GPU와 6세대 고속 NVLink 인터커넥트를 통합하여, HGX B200 대비 4배 더 높은 NVFP4 Tensor Core FLOPS 밀도를 제공함으로써 데이터 센터를 가속 컴퓨팅 및 생성형 AI의 새로운 시대로 이끕니다. 이전 세대 대비 최대 xxxxx배의 AI 팩토리 출력을 실현하는 최상위 가속 스케일업 플랫폼으로서, NVIDIA Rubin 기반 HGX 시스템은 가장 까다로운 생성형 AI, 데이터 분석 및 고성능 컴퓨팅(HPC) 워크로드를 처리하기 위해 설계되었습니다.

차세대 AI 시대를 위한 도약, NVIDIA Rubin 공개

차세대 플랫폼은 추론 및 에이전틱 AI 모델을 위한 5가지 혁신을 통해 주류 채택을 확대하고 토큰당 비용을 절감합니다.

AI 추론 성능 및 다용성

AI, 복잡한 시뮬레이션 및 대규모 데이터 세트는 매우 빠른 상호 연결과 완전히 가속된 소프트웨어 스택을 갖춘 여러 GPU가 필요합니다. NVIDIA HGX™ 플랫폼은 NVIDIA GPU, NVIDIA NVLink™, NVIDIA 네트워킹, 완전히 최적화된 AI 및 고성능 컴퓨팅(HPC) 소프트웨어 스택의 성능을 결합해 모든 데이터센터에 최고 수준의 애플리케이션 성능과 가장 빠른 인사이트 도출을 제공합니다.

타의 추종을 불허하는 엔드 투 엔드 가속 컴퓨팅 플랫폼

NVIDIA HGX B300은 NVIDIA Blackwell Ultra GPU와 고속 상호 연결을 통합하여 데이터센터를 가속 컴퓨팅과 생성형 AI의 새로운 시대로 이끌고 있습니다. 최대 11배 향상된 인퍼런스 성능을 제공하는 최상급 가속 스케일업 플랫폼으로서, Blackwell 기반 NVIDIA HGX 시스템은 가장 까다로운 생성형 AI, 데이터 분석, HPC 워크로드를 위해 설계되었습니다.

NVIDIA HGX는 최고 AI 성능을 위해 NVIDIA Quantum-X800 InfiniBand 및 Spectrum™-X Ethernet을 사용하여 초당 800기가비트(Gb/s)의 속도로 고급 네트워킹 옵션을 포함합니다. HGX는 또한 하이퍼스케일 AI 클라우드에서 클라우드 네트워킹, 컴포저블 스토리지, 제로 트러스트 보안, GPU 컴퓨팅 탄력성을 지원하는 NVIDIA BlueField®-3 데이터 처리 장치(DPU)를 포함하고 있습니다. 

AI 추론 성능 및 다용성

DeepSeek-R1 ISL = 32K, OSL = 8K, FP4 NVIDIA Dynamo 분리를 갖춘 HGX B300. H100(FP8 인플라이트 배칭 포함). 예상 성능은 변경될 수 있습니다.

AI 팩토리 생산성 제고를 통한 수익성 강화

프론티어 곡선은 AI 팩토리 토큰의 수익 출력을 결정하는 주요 매개변수를 보여줍니다. 세로축은 1메가와트(MW) AI 팩토리의 초당 GPU 토큰(TPS) 처리량을 나타내며, 가로축은 사용자 상호작용과 응답성을 단일 사용자의 TPS로 정량화합니다. 처리량과 응답성의 최적의 교차점에서 HGX B300은 NVIDIA Hopper™ 아키텍처에 비해 AI 팩토리 출력 성능이 전반적으로 30배 향상되어 토큰 수익을 창출합니다.

거대 AI 모델을 위한 확장 가능한 학습

한 차원 높은 훈련 성능

HGX B300 플랫폼은 DeepSeek-R1과 같은 거대 언어 모델(LLM)의 학습 성능을 최대 2.6배 향상합니다. 2TB가 넘는 고속 메모리와 14.4TB/s에 달하는 NVLink 스위치 대역폭을 통해 대규모 모델 학습과 고처리량 GPU 간 통신을 지원합니다.

예상 성능은 변경될 수 있습니다. GPU당 성능, FP8, 16K BS, 16K 시퀀스 길이.

NVIDIA 네트워킹을 통한 HGX 가속화하기

AI 팩토리와 슈퍼컴퓨팅 센터는 단일 분산 컴퓨팅 엔진으로서 수천 개의 GPU를 포괄합니다. 가속기의 활용도를 극대화하기 위해 AI 및 과학 기술 워크로드는 결정론적 지연 시간, 무손실 처리량, 안정적인 반복 시간은 물론, 단일 데이터 센터를 넘어 여러 사이트로 확장할 수 있는 능력을 필요로 합니다.

NVIDIA 네트워킹은 NVIDIA NVLink 스케일업, NVIDIA Quantum InfiniBand 및 NVIDIA Spectrum-X™ 이더넷 스케일아웃, NVIDIA Spectrum-XGS 이더넷 멀티 데이터센터 스케일어크로스 기술을 통합한 풀스택 패브릭을 구축합니다. 여기에 인프라 서비스를 위한 NVIDIA® BlueField® DPU 및 NVIDIA DOCA™, 그리고 차세대 실리콘 포토닉스 플랫폼을 결합하여 세계에서 가장 고도화된 AI 데이터센터를 구현합니다.

NVIDIA HGX 스펙

NVIDIA HGX는 8개의 NVIDIA Rubin, NVIDIA Blackwell 또는 NVIDIA Blackwell Ultra SXM이 탑재된 단일 베이스보드 형태로 제공됩니다. 하드웨어와 소프트웨어의 이러한 강력한 조합은 전례 없는 AI 슈퍼컴퓨팅 성능을 위한 기반을 마련합니다.

HGX Rubin NVL8*
폼팩터 8x NVIDIA Rubin SXM
NVFP4 Inference 400 PFLOPS
NVFP4 Training 280 PFLOPS
FP8/FP6 Training 140 PFLOPS
INT8 Tensor 코어<sup>1</sup> 2 PFLOPS
FP16/BF16 Tensor 코어<sup>1</sup> 32 PFLOPS
TF32 Tensor 코어<sup>1</sup> 16 PFLOPS
FP32 1040 TFLOPS
FP64/FP64 Tensor 코어 264 TFLOPS
FP32 SGEMM | FP64 DGEMM코어<sup>2</sup> 3200 TF | 1600 TF
총 메모리 2.3 TB
NVIDIA NVLink 6세대
NVIDIA NVLink Switch NVLink 6 Switch
NVLink GPU-to-GPU 대역폭 3.6 TB/s
총 NVLink 대역폭 28.8 TB/s
네트워킹 대역폭 1.6 TB/s

* 예비 사양으로, 변경될 수 있습니다.
1. 고밀도 사양
2. Tensor 코어 기반의 에뮬레이션 알고리즘을 사용할 때의 최대 성능.

HGX B300 HGX B200
폼 팩터 8x NVIDIA Blackwell Ultra SXM 8x NVIDIA Blackwell SXM
FP4 Tensor 코어<sup>1</sup> 144 PFLOPS | 108 PFLOPS 144 PFLOPS | 72 PFLOPS
FP8/FP6 Tensor 코어<sup>2</sup> 72 PFLOPS 72 PFLOPS
INT8 Tensor 코어<sup>2</sup> 3 POPS 72 POPS
FP16/BF16 Tensor 코어<sup>2</sup> 36 PFLOPS 36 PFLOPS
TF32 Tensor 코어<sup>2</sup> 18 PFLOPS 18 PFLOPS
FP32 600 TFLOPS 600 TFLOPS
FP64/FP64 Tensor 코어 10 TFLOPS 296 TFLOPS
총 메모리 2.1 TB 1.4 TB
NVIDIA NVLink 5세대 5세대
NVIDIA NVLink Switch™ NVLink 5 Switch NVLink 5 Switch
NVLink GPU-to-GPU 대역폭 1.8 TB/s 1.8 TB/s
총 NVLink 대역폭 14.4 TB/s 14.4 TB/s
네트워킹 대역폭 1.6 TB/s 0.8 TB/s
어텐션 성능<sup>3</sup> 2배 1배

1. 희소 모드 사양 | 밀집 사양
2. 희소 사양 밀도는 ½ 희소 사양으로 표시됩니다.
3. NVIDIA Blackwell 대비


HGX Rubin NVL8
폼 팩터 8x NVIDIA Rubin SXM
FP4 텐서 코어* 400 PFLOPS | 144 PFLOPS
FP8/FP6 Tensor 코어2 272 PFLOPS
INT8 Tensor Core* 4 PFLOPS
FP16/BF16 Tensor Core* 64 PFLOPS
TF32 Tensor Core* 32 PFLOPS
FP32 1040 TFLOPS
FP64/FP64 Tensor Core 264 TFLOPS
총 메모리 2.3 TB HBM3E
NVIDIA NVLink 6세대
NVIDIA NVLink Switch NVLink 6 Switch
NVSwitch GPU 간 대역폭 -3.6 TB/s
총 NVLink 대역폭 28.8 TB/s
네트워킹 대역폭 1.6TB/s
어텐션 성능3 결과 대기 속도 2배
HGX B300 HGX B200
Form Factor 8x NVIDIA Blackwell Ultra SXM 8x NVIDIA Blackwell SXM
FP4 Tensor Core<sup>1</sup> 144 PFLOPS | 108 PFLOPS 144 PFLOPS | 72 PFLOPS
FP8/FP6 Tensor Core<sup>2</sup> 72 PFLOPS 72 PFLOPS
INT8 Tensor Core<sup>2</sup> 3 POPS 72 POPS
FP16/BF16 Tensor Core<sup>2</sup> 36 PFLOPS 36 PFLOPS
TF32 Tensor Core<sup>2</sup> 18 PFLOPS 18 PFLOPS
FP32 600 TFLOPS 600 TFLOPS
FP64/FP64 Tensor Core 10 TFLOPS 296 TFLOPS
Total Memory 2.1 TB 1.4 TB
NVIDIA NVLink Fifth generation Fifth generation
NVIDIA NVLink Switch™ NVLink 5 Switch NVLink 5 Switch
NVLink GPU-to-GPU Bandwidth 1.8 TB/s 1.8 TB/s
Total NVLink Bandwidth 14.4 TB/s 14.4 TB/s
Networking Bandwidth 1.6 TB/s 0.8 TB/s
Attention Performance<sup>3</sup> 2x 1x

1. 희소 모드 사양 | 밀집 사양
2. 희소 사양 밀도는 ½ 희소 사양으로 표시됩니다.
3. NVIDIA Blackwell 대비

NVIDIA Blackwell 아키텍처에 대해 자세히 알아보세요.