NVIDIA HGX™ 플랫폼은 NVIDIA GPU, NVIDIA NVLink™, NVIDIA 네트워킹, 그리고 완전히 최적화된 AI 및 고성능 컴퓨팅(HPC) 소프트웨어 스택의 성능을 집약해 모든 데이터센터에서 최고 수준의 애플리케이션 성능과 가장 빠른 인사이트 도출을 제공합니다.
NVIDIA HGX B300은 8개의 NVIDIA Blackwell Ultra GPU와 고속 상호 연결을 통합하여 HGX B200에 비해 1.5배 향상된 집적 FP4 Tensor 코어 FLOPS, 2배 향상된 어텐션 성능을 제공하여 데이터센터를 가속 컴퓨팅과 생성형 AI의 새로운 시대로 이끌고 있습니다. 이전 세대보다 최대 30배 향상된 AI 팩토리 출력을 갖춘 최고의 가속 확장 플랫폼인 NVIDIA Blackwell Ultra 기반 HGX 시스템은 가장 까다로운 생성형 AI, 데이터 분석, HPC 워크로드를 위해 설계되었습니다.
DeepSeek-R1 ISL = 32K, OSL = 8K, FP4 Dynamo 분리를 갖춘 HGX B300. H100(FP8 인플라이트 배칭 포함). 예상 성능은 변경될 수 있습니다.
프론티어 곡선은 AI 팩토리 토큰의 수익 출력을 결정하는 주요 매개변수를 보여줍니다. 세로축은 1메가와트(MW) AI 팩토리의 초당 GPU 토큰(TPS) 처리량을 나타내며, 가로축은 사용자 상호작용과 응답성을 단일 사용자의 TPS로 정량화합니다. 처리량과 응답성의 최적의 교차점에서 HGX B300은 NVIDIA Hopper 아키텍처에 비해 AI 팩토리 출력 성능이 전반적으로 30배 향상되어 토큰 수익을 창출합니다.
예상 성능은 변경될 수 있습니다. GPU당 성능, FP8, 16K BS, 16K 시퀀스 길이.
HGX B300 플랫폼은 DeepSeek-R1과 같은 거대 언어 모델(LLM)의 학습 성능을 최대 2.6배 향상합니다. 2TB가 넘는 고속 메모리와 14.4TB/s에 달하는 NVLink 스위치 대역폭을 통해 대규모 모델 학습과 고처리량 GPU 간 통신을 지원합니다.
데이터 센터는 컴퓨팅의 새로운 단위이며, 네트워킹은 이를 통해 애플리케이션 성능을 확장하는 데 필수적인 역할을 합니다. NVIDIA Quantum InfiniBand와 연계된 HGX는 세계 최고 수준의 성능과 효율성을 제공하여 컴퓨팅 리소스를 최대한 활용할 수 있습니다.
이더넷을 배포한 AI 클라우드 데이터센터의 경우 HGX는 NVIDIA Spectrum-X 네트워킹 플랫폼과 함께 가장 잘 활용되며, 이더넷을 통해 최고의 AI 성능을 지원합니다. Spectrum-X 스위치와 NVIDIA SuperNIC를 갖추고 있어 최적의 리소스 활용도와 성능 격리를 보장하며, 모든 규모에서 수천 개의 동시 AI 작업에 일관되고 예측 가능한 결과를 제공합니다. Spectrum-X는 고급 클라우드 멀티 테넌시 및 제로 트러스트 보안을 지원합니다. 레퍼런스 디자인으로서, NVIDIA는 NVIDIA HGX 8-GPU 플랫폼 기반의 Dell PowerEdge XE9680 서버, BlueField-3 SuperNIC, Spectrum-4 스위치를 활용해 구축한 하이퍼스케일 생성형 AI 슈퍼컴퓨터 Israel-1을 설계했습니다.
NVIDIA HGX는 4개 또는 8개의 Hopper SXM이나 8개의 NVIDIA Blackwell 또는 NVIDIA Blackwell Ultra SXM을 갖춘 단일 베이스보드로 사용할 수 있습니다. 하드웨어와 소프트웨어의 이러한 강력한 조합은 전례 없는 AI 슈퍼컴퓨팅 성능을 위한 기반을 마련합니다.
| HGX B300 | HGX B200 | |
|---|---|---|
| 폼 팩터 | 8x NVIDIA Blackwell Ultra SXM | 8x NVIDIA Blackwell SXM |
| FP4 Tensor 코어1 | 144 PFLOPS | 108 PFLOPS | 144 PFLOPS | 72 PFLOPS |
| FP8/FP6 Tensor 코어2 | 72 PFLOPS | 72 PFLOPS |
| INT8 Tensor Core2 | 3 POPS | 72 POPS |
| FP16/BF16 Tensor Core2 | 36 PFLOPS | 36 PFLOPS |
| TF32 Tensor Core2 | 18 PFLOPS | 18 PFLOPS |
| FP32 | 600 TFLOPS | 600 TFLOPS |
| FP64/FP64 Tensor Core | 10 TFLOPS | 296 TFLOPS |
| 총 메모리 | 2.1 TB | 1.4 TB |
| NVIDIA NVLink | 5세대 | 5세대 |
| NVIDIA NVLink Switch™ | NVLink 5 Switch | NVLink 5 Switch |
| NVLink GPU-to-GPU 대역폭 | 1.8 TB/s | 1.8 TB/s |
| 총 NVLink 대역폭 | 14.4 TB/s | 14.4 TB/s |
| 네트워킹 대역폭 | 1.6TB/s | 0.8 TB/s |
| 어텐션 성능3 | 2배 | 1x |
1. 희소 모드 사양 | 밀집 사양
2. 희소 사양 밀도는 ½ 희소 사양으로 표시됩니다.
3. vs. Blackwell.
| HGX H200 | ||||
|---|---|---|---|---|
| 4-GPU | 8-GPU | |||
| 폼 팩터 | 4x NVIDIA H200 SXM | 8x NVIDIA H200 SXM | ||
| FP8 Tensor Core* | 16 PFLOPS | 32 PFLOPS | ||
| INT8 Tensor Core* | 16 POPS | 32 POPS | ||
| FP16/BF16 Tensor Core* | 8 PFLOPS | 16 PFLOPS | ||
| TF32 Tensor Core* | 4 PFLOPS | 8 PFLOPS | ||
| FP32 | 270 TFLOPS | 540 TFLOPS | ||
| FP64 | 140 TFLOPS | 270 TFLOPS | ||
| FP64 Tensor Core | 270 TFLOPS | 540 TFLOPS | ||
| 총 메모리 | 564 GB HBM3E | 1.1 TB HBM3E | ||
| GPU 통합 대역폭 | 19 TB/s | 38 TB/s | ||
| NVLink | 4세대 | 4세대 | ||
| NVSwitch | 해당 없음 | NVLink 4 Switch | ||
| NVSwitch GPU 간 대역폭 | 해당 없음 | 900GB/s | ||
| 전체 통합 대역폭 | 3.6 TB/s | 7.2 TB/s | ||
| 네트워킹 대역폭 | 0.4 TB/s | 0.8 TB/s | ||
| HGX H100 | ||||
|---|---|---|---|---|
| 4-GPU | 8-GPU | |||
| 폼 팩터 | 4x NVIDIA H100 SXM | 8x NVIDIA H100 SXM | ||
| FP8 Tensor Core* | 16 PFLOPS | 32 PFLOPS | ||
| INT8 Tensor Core* | 16 POPS | 32 POPS | ||
| FP16/BF16 Tensor Core* | 8 PFLOPS | 16 PFLOPS | ||
| TF32 Tensor Core* | 4 PFLOPS | 8 PFLOPS | ||
| FP32 | 270 TFLOPS | 540 TFLOPS | ||
| FP64 | 140 TFLOPS | 270 TFLOPS | ||
| FP64 Tensor Core | 270 TFLOPS | 540 TFLOPS | ||
| 총 메모리 | 320 GB HBM3 | 640 GB HBM3 | ||
| GPU 통합 대역폭 | 13 TB/s | 27 TB/s | ||
| NVLink | 4세대 | 4세대 | ||
| NVSwitch | 해당 없음 | NVLink 4 Switch | ||
| NVSwitch GPU 간 대역폭 | 해당 없음 | 900GB/s | ||
| 전체 통합 대역폭 | 3.6 TB/s | 7.2 TB/s | ||
| 네트워킹 대역폭 | 0.4 TB/s | 0.8 TB/s | ||
* 희소성 포함
NVIDIA Blackwell 아키텍처에 대해 자세히 알아보세요.