모든 데이터센터에서 고급 AI 및 HPC 가속화.
AI, 복잡한 시뮬레이션 및 대규모 데이터 세트는 매우 빠른 상호 연결과 완전히 가속된 소프트웨어 스택을 갖춘 여러 GPU가 필요합니다. NVIDIA HGX™ 플랫폼은 NVIDIA GPU, NVIDIA NVLink™, NVIDIA 네트워킹, 완전히 최적화된 AI 및 고성능 컴퓨팅(HPC) 소프트웨어 스택의 최고 성능을 통합하여 가장 높은 애플리케이션 성능을 제공하고 모든 데이터센터에서 인사이트를 얻는 데 가장 적은 시간을 할애합니다.
NVIDIA HGX B300은 NVIDIA Blackwell Ultra GPU와 고속 상호 연결을 통합하여 데이터센터를 가속 컴퓨팅과 생성형 AI의 새로운 시대로 진입하게 합니다. 이전 세대보다 최대 11배 더 높은 추론 성능을 제공하는 최고의 가속 확장 플랫폼인 Blackwell 기반 HGX 시스템은 가장 까다로운 생성형 AI, 데이터 분석 및 HPC 워크로드를 위해 설계되었습니다.
NVIDIA HGX는 최고 AI 성능을 위해 NVIDIA Quantum-X800 InfiniBand 및 Spectrum™-X Ethernet을 사용하여 초당 800기가비트(Gb/s)의 속도로 고급 네트워킹 옵션을 포함합니다. HGX는 또한 하이퍼스케일 AI 클라우드에서 클라우드 네트워킹, 컴포저블 스토리지, 제로 트러스트 보안, GPU 컴퓨팅 탄력성을 지원하는 NVIDIA BlueField®-3 데이터 처리 장치(DPU)를 포함하고 있습니다.
예상 성능은 변경될 수 있습니다. 토큰간 지연 시간(TTL) = 실시간 20ms, 첫 번째 토큰 지연 시간(FTL) = 5초, 입력 시퀀스 길이 = 32,768, 출력 시퀀스 길이 = 1,028, GPU 성능 비교당 8웨이 HGX H100 GPU 공랭식 8개 대 HGX B300 공랭식 1개, 분산된 추론을 사용한 처리.
HGX B300은 Llama 3.1 405B와 같은 모델에서 이전 NVIDIA Hopper™ 세대보다 최대 11배 더 높은 추론 성능을 달성합니다. 2세대 트랜스포머 엔진은 TensorRT™-LLM 혁신과 결합된 맞춤형 Blackwell Tensor Core 기술을 사용하여 거대 언어 모델(LLM)에 대한 추론을 가속화합니다.
데이터 센터는 컴퓨팅의 새로운 단위이며, 네트워킹은 이를 통해 애플리케이션 성능을 확장하는 데 필수적인 역할을 합니다. NVIDIA Quantum InfiniBand와 연계된 HGX는 세계 최고 수준의 성능과 효율성을 제공하여 컴퓨팅 리소스를 최대한 활용할 수 있습니다.
이더넷을 배포하는 AI 클라우드 데이터 센터의 경우, HGX는 이더넷을 통해 최고의 AI 성능을 제공하는 NVIDIA Spectrum-X™ 네트워킹 플랫폼과 함께 가장 잘 사용됩니다. 이 제품은 최적의 리소스 활용과 성능 격리를 위해 Spectrum-X 스위치와 NVIDIA SuperNIC™을 갖추고 있으며, 모든 규모에서 수천 개의 AI 작업을 동시에 수행할 때 일관되고 예측 가능한 결과를 제공합니다. Spectrum-X는 고급 클라우드 멀티 테넌시 및 제로 트러스트 보안을 지원합니다. 참조 설계로서, NVIDIA는 NVIDIA HGX 8-GPU 플랫폼, BlueField-3 SuperNICs 및 Spectrum-4 스위치를 기반으로 Dell PowerEdge XE9680 서버를 사용한 하이퍼스케일 생성형 AI 슈퍼컴퓨터 Israel-1을 설계했습니다.
NVIDIA HGX는 4개 또는 8개의 Hopper SXM이나 8개의 NVIDIA Blackwell 또는 NVIDIA Blackwell Ultra SXM을 갖춘 단일 베이스보드로 사용할 수 있습니다. 하드웨어와 소프트웨어의 이러한 강력한 조합은 전례 없는 AI 슈퍼컴퓨팅 성능을 위한 기반을 마련합니다.
| HGX B300 | HGX B200 | |
|---|---|---|
| 폼 팩터 | 8x NVIDIA Blackwell Ultra SXM | 8x NVIDIA Blackwell SXM |
| FP4 Tensor 코어** | 144 FPLOPS | 105 PFLOPS | 144 PFLOPS | 72 PFLOPS |
| FP8/FP6 텐서 코어* | 72 FPLOPS | 72 PFLOPS |
| INT8 Tensor 코어* | 2 POPS | 72 POPS |
| FP16/BF16 텐서 코어* | 36 PFLOPS | 36 PFLOPS |
| TF32 Tensor 코어* | 18 PFLOPS | 18 PFLOPS |
| FP32 | 600 TFLOPS | 600 TFLOPS |
| FP64/FP64 Tensor 코어 | 10 TFLOPS | 296 TFLOPS |
| 총 메모리 | Up to 2.3TB | 1.4TB |
| NVLink | Fifth generation | Fifth generation |
| NVIDIA NVSwitch™ | NVLink 5 Switch | NVLink 5 Switch |
| NVSwitch GPU 간 대역폭 | 1.8TB/s | 1.8TB/s |
| 총 NVLink 대역폭 | 14.4TB/s | 14.4TB/s |
* 희소성 포함
** 희소성 있음 | 희소성 없음
| HGX H200 | ||||
|---|---|---|---|---|
| 4GPU | 8GPU | |||
| 폼 팩터 | 4x NVIDIA H200 SXM | 8x NVIDIA H200 SXM | ||
| FP8 텐서 코어* | 16 PFLOPS | 32 PFLOPS | ||
| INT8 텐서 코어* | 16 POPS | 32 POPS | ||
| FP16/BF16 텐서 코어* | 8 PFLOPS | 16 PFLOPS | ||
| TF32 텐서 코어* | 4 PFLOPS | 8 PFLOPS | ||
| FP32 | 270 TFLOPS | 540 TFLOPS | ||
| FP64 | 140 TFLOPS | 270 TFLOPS | ||
| FP64 Tensor 코어 | 270 TFLOPS | 540 TFLOPS | ||
| 총 메모리 | 564GB HBM3e | 1.1TB HBM3e | ||
| GPU 통합 대역폭 | 19GB/s | 38GB/s | ||
| NVLink | Fourth generation | Fourth generation | ||
| NVSwitch | 해당 없음 | NVLink 4 Switch | ||
| NVSwitch GPU 간 대역폭 | 해당 없음 | 900GB/s | ||
| 전체 통합 대역폭 | 3.6TB/s | 7.2TB/s | ||
| HGX H100 | ||||
|---|---|---|---|---|
| 4GPU | 8GPU | |||
| 폼 팩터 | 4x NVIDIA H100 SXM | 8x NVIDIA H100 SXM | ||
| FP8 텐서 코어* | 16 PFLOPS | 32 PFLOPS | ||
| INT8 텐서 코어* | 16 POPS | 32 POPS | ||
| FP16/BF16 텐서 코어* | 8 PFLOPS | 16 PFLOPS | ||
| TF32 텐서 코어* | 4 PFLOPS | 8 PFLOPS | ||
| FP32 | 270 TFLOPS | 540 TFLOPS | ||
| FP64 | 140 TFLOPS | 270 TFLOPS | ||
| FP64 Tensor 코어 | 270 TFLOPS | 540 TFLOPS | ||
| 총 메모리 | 320GB HBM3 | 640GB HBM3 | ||
| GPU 통합 대역폭 | 13GB/s | 27GB/s | ||
| NVLink | Fourth generation | Fourth generation | ||
| NVSwitch | 해당 없음 | NVLink 4 Switch | ||
| NVSwitch GPU 간 대역폭 | 해당 없음 | 900GB/s | ||
| 전체 통합 대역폭 | 3.6TB/s | 7.2TB/s | ||
* 희소성 포함
NVIDIA Blackwell 아키텍처에 대해 자세히 알아보세요.