NVIDIA HGX AI 슈퍼컴퓨터

가장 강력한 엔드 투 엔드 AI 슈퍼컴퓨팅 플랫폼입니다.

시뮬레이션, 데이터 분석 및 AI의 융합을 위해 특별히 구축된 플랫폼

대규모 데이터 세트, 폭발적인 모델 크기 및 복잡한 시뮬레이션에는 매우 빠른 인터커넥트 및 완전히 가속화된 소프트웨어 스택을 지원하는 다중 GPU가 필요합니다. NVIDIA HGX™ AI 슈퍼컴퓨팅 플랫폼은 NVIDIA GPU, NVIDIA® NVLink®, NVIDIA InfiniBand 네트워킹의 완전한 성능과 NVIDIA NGC™ 카탈로그의 완전히 최적화된 NVIDIA AI 및 HPC 소프트웨어 스택을 결합하여 최고의 애플리케이션 성능을 제공합니다. NVIDIA HGX는 엔드 투 엔드 성능과 유연성을 통해 연구원과 과학자가 시뮬레이션, 데이터 분석 및 AI를 결합하여 과학적 진전을 이끌어내도록 지원합니다.

타의 추종을 불허하는 엔드 투 엔드 가속 컴퓨팅 플랫폼

NVIDIA HGX는 NVIDIA A100 Tensor 코어 GPU를 고속 인터커넥트와 결합하여 세계에서 가장 강력한 확장 서버를 구축합니다. 16개의 A100 GPU를 사용하는 HGX에는 최대 1.3테라바이트(TB)의 GPU 메모리 및 초당 2TB(TB/s) 이상의 메모리 대역폭이 지원되어 전례 없는 수준의 가속화를 보여줍니다.

이전 세대와 비교하여, HGX는 Tensor Float 32(TF32)와 FP64를 통한 2.5배의 HPC 속도 향상을 통해 최대 20배의 AI 속도 향상을 제공합니다. NVIDIA HGX는 경이로운 10페타플롭스를 제공하며 AI 및 HPC를 위한 세계에서 가장 강력한 가속 확장 서버 플랫폼을 구성합니다.

완전한 테스트를 거쳤고 간편하게 배포할 수 있는 HGX는 파트너 서버에 통합되어 보장된 성능을 제공합니다. HGX 플랫폼은 SXM GPU가 있는 4GPU 및 8GPU HGX 베이스보드로 사용할 수 있으며, 주류 서버에 최고의 컴퓨팅 성능을 제공하는 모듈식 배포 옵션을 위한 PCIe GPU로도 사용할 수 있습니다.

HGX Stack

NVIDIA HGX A100 8-GPU

NVIDIA HGX A100 with 8x A100 GPUs

NVIDIA HGX A100 4-GPU

NVIDIA HGX A100 with 4x A100 GPUs

딥러닝 성능

가장 큰 규모의 모델에서 최대 3배의 AI 트레이닝

DLRM 트레이닝

Up to 3X Higher AI Training on Largest Models

딥러닝 모델은 크기와 복잡성이 폭발적으로 증가하고 있어 대량의 메모리, 방대한 컴퓨팅 성능, 그리고 확장성을 위한 빠른 인터커넥트가 필요합니다. 고속 올 투 올 GPU 통신을 제공하는 NVIDIA NVSwitch™가 탑재된 HGX는 최첨단 AI 모델을 처리할 수 있습니다. A100 80GB GPU 사용 시 GPU 메모리가 두 배로 증가하므로 단일 HGX에서 최대 1.3TB의 메모리를 사용할 수 있습니다. 대규모 데이터 테이블이 있는 DLRM(Deep Learning Recommendation Model) 등의 가장 큰 모델에서 새로 등장하는 워크로드는 A100 40GB GPU 기반의 HGX보다 최대 3배 가속화됩니다.

머신 러닝 성능

빅데이터 분석 벤치마크에서 A100 40GB보다 2배 빠른 속도

2X Faster than A100 40GB on Big Data Analytics Benchmark

머신 러닝 모델은 중요한 인사이트를 얻기 위해 초대규모 데이터 세트를 로드하고 변환하여 처리해야 합니다. 최대 1.3TB의 통합 메모리와 NVSwitch와의 올 투 올 GPU 통신을 지원하는 A100 80GB GPU 기반의 HGX는 실행 가능한 인사이트를 신속하게 도출하기 위해 막대한 데이터 세트를 로드하고 계산하는 기능을 갖추었습니다.

A100 80GB는 빅데이터 분석 벤치마크에서 A100 40GB보다 2배 더 높은 처리량으로 인사이트를 제공하여 데이터세트 크기가 엄청 거대해진 요즘 워크로드에 적합합니다.

HPC 성능

HPC 애플리케이션은 매초 어마어마한 양의 데이터를 계산해야 합니다. 각 서버 노드의 컴퓨팅 밀도를 증가시키면 필요한 서버의 수가 대폭 감소되어 데이터센터 소모 비용, 전력 및 공간이 막대하게 절감되는 효과를 누릴 수 있습니다. 시뮬레이션의 경우 고차원 행렬 곱셈 연산은 수많은 주변 장치에서 데이터를 가져올 수 있는 프로세서가 필요하기에 NVIDIA NVLink로 연결된 GPU가 이상적입니다. HPC 애플리케이션도 A100에서 TF32를 활용하여 4년 만에 단정밀도의 고밀도 매트릭스 곱셈 연산에서 최대 11배 높은 처리량을 달성할 수 있습니다.

A100 80GB GPU 기반의 HGX는 재료 시뮬레이션인 Quantum Espresso에서 A100 40GB GPU에 2배의 처리량 증가를 제공하므로 인사이트를 더 빠르게 얻을 수 있습니다.

4년 동안 11배 향상된 HPC 성능

최고 HPC 앱

11X More HPC Performance in Four Years

HPC 애플리케이션의 최대 1.8배 높은 성능

Quantum Espresso​

Up to 1.8X Higher Performance for HPC Applications

NVIDIA HGX 스펙

NVIDIA HGX는 각각 40GB나 80GB의 GPU 메모리를 갖춘 A100 GPU 또는 80GB의 GPU 메모리를 갖춘 4개나 8개의 H100 GPU가 탑재된 단일 베이스보드에서 사용할 수 있습니다. 4GPU 구성은 NVIDIA NVLink와 완전히 인터커넥트되며, 8GPU 구성은 NVIDIA NVSwitch와 인터커넥트됩니다. NVIDIA NVLink 스위치 시스템을 사용하면 최대 32개의 HGX H100 8GPU 시스템을 최대 256GPU 크기의 클러스터에 결합할 수 있습니다. 2개의 HGX A100 8GPU 베이스보드는 NVSwitch 인터커넥트로 결합되어 강력한 16GPU 단일 노드를 생성할 수 있습니다.

HGX는 배포가 용이한 모듈식 옵션을 위한 PCIe 폼 팩터로도 사용할 수 있으며, 메인스트림 서버에 최고의 컴퓨팅 성능을 제공합니다.

이처럼 하드웨어와 소프트웨어의 강력한 조합은 최고급 AI 슈퍼컴퓨팅 플랫폼의 토대가 됩니다.

  HGX H100
  H100 PCIe 4-GPU 8-GPU 256-GPU
GPUs 1x NVIDIA H100 PCIe HGX H100 4-GPU HGX H100 8-GPU 32x HGX H100 8-GPU
폼 팩터 PCIe 4x NVIDIA H100 SXM 8x NVIDIA H100 SXM NVLink Switch 시스템을 통해 NVIDIA H100 SXM 8기 탑재 노드 32개 연결
HPC 및 AI 컴퓨팅(FP64/TF32/FP16/FP8/INT8) 48TF/800TF/1.6PF/3.2PF/3.2 POPS 240TF/4PF/8PF/16PF/16POPS 480TF/8PF/16PF/32PF/32POPS 15PF/256PF/512PF/1EF/1EOPS
메모리 GPU당 80GB 최대 320GB 최대 640GB 최대 20TB
NVLink 4세대 4세대 4세대 4세대
NVSwitch 해당 없음 해당 없음 3세대 3세대
NVLink 스위치 해당 없음 해당 없음 해당 없음 1세대
NVSwitch GPU 간 대역폭 해당 없음 해당 없음 900GB/s 900GB/s
총 집계 대역폭 900GB/s 3.6TB/s 7.2TB/s 57.6TB/s
  HGX A100
  A100 PCIe 4-GPU 8-GPU 16-GPU
GPUs 1x NVIDIA A100 PCIe HGX A100 4-GPU HGX A100 8-GPU 2x HGX A100 8-GPU
폼 팩터 PCIe 4x NVIDIA A100 SXM 8x NVIDIA A100 SXM 16x NVIDIA A100 SXM
HPC 및 AI 컴퓨팅(FP64/TF32/FP16/INT8) 19.5TF/312TF/624TF/1.2POPS 78TF/1.25PF/2.5PF/5POPS 156TF/2.5PF/5PF/10POPS 312TF/5PF/10PF/20POPS
메모리 GPU당 80GB 최대 320GB 최대 640GB 최대 1,280GB
NVLink 3세대 3세대 3세대 3세대
NVSwitch 해당 없음 해당 없음 2세대 2세대
NVSwitch GPU 간 대역폭 해당 없음 해당 없음 600GB/s 600GB/s
총 집계 대역폭 600GB/s 2.4TB/s 4.8TB/s 9.6TB/s

NVIDIA 네트워킹으로 HGX 가속화하기

HGX를 사용하면 NVIDIA 네트워킹을 포함하여 데이터 전송을 가속화 및 오프로드할 수 있으며 컴퓨팅 리소스를 완전히 활용하게 하는 것도 가능합니다. 스마트 어댑터와 스위치는 지연 시간을 줄이고, 효율성을 개선하며, 보안을 향상하고 데이터센터 자동화를 간소화하여 엔드 투 엔드 애플리케이션 성능을 가속화할 수 있습니다.

데이터센터는 컴퓨팅의 새로운 단위이며 HPC 네트워킹은 전체 데이터센터에서 애플리케이션 성능을 확장하는 데 중요한 역할을 합니다. NVIDIA InfiniBand는 소프트웨어 정의 네트워킹, 인-네트워크 컴퓨팅 가속화, RDMA(Remote Direct Memory Access), 그리고 가장 빠른 속도 및 피드를 통해 그 기반을 닦고 있습니다.

HGX-1 and HGX-2 Reference Architectures

Powered by NVIDIA GPUs and NVLINK

NVIDIA HGX-1 and HGX-2 are reference architectures that standardize the design of data centers accelerating AI and HPC. Built with NVIDIA SXM2 V100 boards, with NVIDIA NVLink and NVSwitch interconnect technologies, HGX reference architectures have a modular design that works seamlessly in hyperscale and hybrid data centers to deliver up to 2 petaFLOPS of compute power for a quick, simple path to AI and HPC.

Powered by NVIDIA GPUs and NVLINK

Specifications

8-GPU
HGX-1 
16-GPU
HGX-2 
GPUs 8x NVIDIA V100 16x NVIDIA V100
AI Compute 1 petaFLOPS (FP16) 2 petaFLOPS (FP16)
Memory 256 GB 512 GB
NVLink 2nd generation 2nd generation
NVSwitch N/A Yes
NVSwitch GPU-to-GPU Bandwidth N/A 300 GB/s
Total Aggregate Bandwidth 2.4 TB/s 4.8 TB/s

NVIDIA A100 GPU에 대해 자세히 알아보기