NVIDIA HGX AI 슈퍼컴퓨터

세계 최고의 AI 컴퓨팅 플랫폼입니다.

AI 및 HPC를 위한 맞춤형 구축

AI, 복잡한 시뮬레이션 및 대규모 데이터 세트에는 매우 빠른 상호 연결과 완전히 가속화된 소프트웨어 스택을 갖춘 여러 개의 GPU가 필요합니다. NVIDIA HGX™ AI 슈퍼컴퓨팅 플랫폼은 NVIDIA GPU, NVLink®, NVIDIA 네트워킹, 완벽하게 최적화된 AI 및 고성능 컴퓨팅(HPC) 소프트웨어 스택의 모든 기능을 결합하여 최고의 애플리케이션 성능을 제공하고 통찰력을 얻는 시간을 단축합니다.

타의 추종을 불허하는 엔드 투 엔드 가속 컴퓨팅 플랫폼

NVIDIA HGX H200은 H200 Tensor 코어 GPU를 고속 인터커넥트와 결합하여 세계에서 가장 강력한 확장 서버를 구축합니다. 최대 8개의 GPU로 구성되어 최대 1.1테라바이트(TB)의 GPU 메모리와 초당 38테라바이트(TB/s)의 총 메모리 대역폭으로 전례 없는 가속화를 제공합니다. 이는 놀라운 32페타플롭스 성능과 결합되어 세계에서 가장 강력한 AI 및 HPC용 가속 확장 서버 플랫폼을 구성합니다.

HGX H200과 HGX H100 모두 최대 초당 400기가비트(Gb/s) 속도의 고급 네트워킹 옵션이 포함되어 있으며, 최고의 AI 성능을 위해 NVIDIA 퀀텀-2 인피니밴드 및 Spectrum™-X 이더넷을 활용합니다. 또한 H200 및 HGX H100에는 하이퍼스케일 AI 클라우드에서 클라우드 네트워킹, 컴포저블 스토리지, 제로 트러스트 보안 및 GPU 컴퓨팅 탄력성을 지원하는 NVIDIA® BlueField®-3 데이터 처리 장치(DPU)가 포함되어 있습니다.

HGX Stack

딥 러닝 훈련: 성능 및 확장성

예상 성능은 변동될 수 있습니다.

GPT-3 175B training NVIDIA A100 Tensor Core GPU cluster: NVIDIA Quantum InfiniBand network, H100 cluster: NVIDIA Quantum-2 InfiniBand network

NVIDIA H200 및 H100 GPU는 대규모 언어 모델에 대해 이전 GPU 세대보다 4배 이상 빠른 트레이닝을 제공하는 FP8 정밀도의 트랜스포머 엔진을 탑재하고 있습니다. 900GB/s의 GPU 간 인터커넥트를 제공하는 4세대 NVIDIA NV링크, PCIe Gen5, Magnum IO™ 소프트웨어의 조합은 소규모 기업부터 대규모 통합 GPU 클러스터에 이르기까지 효율적인 확장성을 제공합니다. 이러한 인프라의 발전은 NVIDIA AI 엔터프라이즈 소프트웨어 제품군과 함께 작동하여 HGX H200 및 HGX H100을 가장 강력한 엔드투엔드 AI 및 HPC 데이터센터 플랫폼으로 만들어 줍니다.

딥 러닝 추론: 성능 및 다용성

초대형 모델에서 최대 30배 더 높은 AI 추론 성능

5,300억 개 매개 변수를 사용한 Megatron 챗봇 추론

Inference on Megatron 530B parameter model chatbot for input sequence length = 128, output sequence length = 20, A100 cluster: NVIDIA Quantum InfiniBand network; H100 cluster: NVIDIA Quantum-2 InfiniBand network for 2x HGX H100 configurations; 4x HGX A100 vs. 2x HGX H100 for 1 and 1.5 sec; 2x HGX A100 vs. 1x HGX H100 for 2 sec.

AI는 동등하게 광범위한 뉴럴 네트워크를 사용하여 다양한 비즈니스 문제를 해결합니다. 뛰어난 AI 추론 가속기는 최고의 성능뿐만 아니라 고객이 배포하고자 선택한 데이터센터에서 엣지까지 모든 위치에서 이러한 네트워크를 가속화할 수 있는 다용성도 제공해야 합니다.

HGX H200 및 HGX H100은 메가트론 5,300억 개의 파라미터 챗봇에서 이전 세대보다 추론을 최대 30배까지 가속화하여 엔비디아의 시장 선도적 추론 리더십을 더욱 확장합니다.

HPC 성능

HPC 애플리케이션을 위한 최대 110배 더 높은 성능

예상 성능은 변동될 수 있습니다.
HPC MILC- dataset NERSC Apex Medium | HGX H200 4-GPU | dual Sapphire Rapids 8480
HPC Apps- CP2K: dataset H2O-32-RI-dRPA-96points | GROMACS: dataset STMV | ICON: dataset r2b5 | MILC: dataset NERSC Apex Medium | Chroma: dataset HMC Medium | Quantum Espresso: dataset AUSURF112 | 1x H100 | 1x H200.

메모리 대역폭은 데이터 전송 속도를 높여 복잡한 처리 병목현상을 줄여주기 때문에 고성능 컴퓨팅 애플리케이션에 매우 중요합니다. 시뮬레이션, 과학 연구, 인공 지능과 같이 메모리 집약적인 HPC 애플리케이션의 경우, H200의 높은 메모리 대역폭은 데이터에 효율적으로 액세스하고 조작할 수 있도록 보장하여 CPU에 비해 최대 110배 빠른 결과 도출 시간을 제공합니다.

NVIDIA 네트워킹으로 HGX 가속화하기

데이터센터는 컴퓨팅의 새로운 단위이며 네트워킹은 전체 데이터센터에서 애플리케이션 성능을 확장하는 데 중요한 역할을 합니다. NVIDIA Quantum InfiniBand와 결합된 HGX는 컴퓨팅 리소스의 완전한 활용을 보장하는 세계적 수준의 성능과 효율성을 제공합니다.

이더넷을 배포하는 AI 클라우드 데이터센터의 경우 HGX는 400Gb/s 이더넷을 통해 최고의 AI 성능을 구현하는 NVIDIA Spectrum-X 네트워킹 플랫폼과 함께 사용하는 것이 가장 좋습니다. NVIDIA Spectrum™-4 스위치 및 BlueField-3 DPU를 갖춘 Spectrum-X는 최적의 리소스 활용 및 성능의 격리를 통해 모든 규모의 수천 개 동시 AI 작업에 대해 일관적이고 예측 가능한 결과를 제공합니다. Spectrum-X는 고급 클라우드 멀티 테넌시 및 제로 트러스트 보안을 지원합니다. NVIDIA는 NVIDIA Spectrum-X의 레퍼런스 디자인으로 NVIDIA HGX™ H100 8GPU 플랫폼, BlueField-3 DPU 및 Spectrum-4 스위치 기반의 Dell PowerEdge XE9680 서버로 구축된 하이퍼스케일 생성형 AI 슈퍼컴퓨터인 Israel-1을 디자인했습니다.

NVIDIA 네트워킹으로 HGX H200 또는 H100 연결하기

  NVIDIA Quantum-2 InfiniBand 플랫폼:

Quantum-2 스위치, ConnectX-7 어댑터, BlueField-3 DPU

NVIDIA Spectrum-X 플랫폼:

Spectrum-4 스위치, BlueField-3 DPU, Spectrum-X 라이선스

NVIDIA Spectrum 이더넷 플랫폼:

Spectrum 스위치, ConnectX 어댑터, BlueField DPU

DL 훈련 최고 더 나음 양호
과학 시뮬레이션 최고 더 나음 양호
데이터 분석 최고 더 나음 양호
DL 추론 최고 더 나음 양호

NVIDIA HGX 사양

NVIDIA HGX는 4개 또는 8개의 H200 또는 H100 GPU 또는 4개나 8개의 A100 GPU가 있는 단일 베이스보드에서 사용할 수 있습니다. 이러한 하드웨어와 소프트웨어의 강력한 조합은 전례 없는 AI 슈퍼컴퓨팅 플랫폼 성능의 토대가 됩니다.

  HGX H200
  4GPU 8GPU
GPU HGX H200 4GPU HGX H200 8GPU
폼 팩터 4x NVIDIA H200 SXM 8x NVIDIA H200 SXM
HPC 및 AI 컴퓨팅 (FP64/TF32/FP16/FP8/INT8) 268TF/4PF/8PF/16PF/16 POPS 535TF/8PF/16PF/32PF/32 POPS
메모리 최대 564GB 최대 1.1TB
NVLink 4세대 4세대
NVSwitch 해당 없음 3세대
NVSwitch GPU 간 대역폭 해당 없음 900GB/s
총 집계 대역폭 3.6TB/s 7.2TB/s
  HGX H100
  4GPU 8GPU
GPU HGX H100 4GPU HGX H100 8GPU
폼 팩터 4x NVIDIA H100 SXM 8x NVIDIA H100 SXM
HPC 및 AI 컴퓨팅(FP64/TF32/FP16/FP8/INT8) 268TF/4PF/8PF/16PF/16 POPS 535TF/8PF/16PF/32PF/32 POPS
메모리 최대 320GB 최대 640GB
NVLink 4세대 4세대
NVSwitch 해당 없음 3세대
NVLink Switch 해당 없음 해당 없음
NVS(GPU 간 대역폭 포함) 해당 없음 900GB/s
총 집계 대역폭 3.6TB/s 7.2TB/s
  HGX A100
  4GPU 8GPU
GPU HGX A100 4GPU HGX A100 8GPU
폼 팩터 4x NVIDIA A100 SXM 8x NVIDIA A100 SXM
HPC 및 AI 컴퓨팅(FP64/TF32/FP16/INT8) 78TF/1.25PF/2.5PF/5 POPS 156TF/2.5PF/5PF/10 POPS
메모리 최대 320GB 최대 640GB
NVLink 3세대 3세대
NVSwitch 해당 없음 2세대
NVS(GPU 간 대역폭 포함) 해당 없음 600GB/s
총 집계 대역폭 2.4TB/s 4.8TB/s

NVIDIA H200 Tensor 코어 GPU에 대해 자세히 알아보기