NVIDIA HGX AI 슈퍼컴퓨터

가장 강력한 엔드 투 엔드 AI 슈퍼컴퓨팅 플랫폼입니다.

시뮬레이션, 데이터 분석 및 AI의 융합을 위해 특별히 구축된 플랫폼

대규모 데이터 세트, 폭발적인 모델 크기 및 복잡한 시뮬레이션에는 매우 빠른 인터커넥트 및 완전히 가속화된 소프트웨어 스택을 지원하는 다중 GPU가 필요합니다. NVIDIA HGX™ AI 슈퍼컴퓨팅 플랫폼은 NVIDIA GPU, NVIDIA® NVLink®, NVIDIA InfiniBand 네트워킹의 완전한 성능과 NVIDIA NGC™ 카탈로그의 완전히 최적화된 NVIDIA AI 및 HPC 소프트웨어 스택을 결합하여 최고의 애플리케이션 성능을 제공합니다. NVIDIA HGX는 엔드 투 엔드 성능과 유연성을 통해 연구원과 과학자가 시뮬레이션, 데이터 분석 및 AI를 결합하여 과학적 진전을 이끌어내도록 지원합니다.

타의 추종을 불허하는 엔드 투 엔드 가속 컴퓨팅 플랫폼

NVIDIA HGX는 NVIDIA A100 Tensor 코어 GPU를 고속 인터커넥트와 결합하여 세계에서 가장 강력한 확장 서버를 구축합니다. 16개의 A100 GPU를 사용하는 HGX에는 최대 1.3테라바이트(TB)의 GPU 메모리 및 초당 2TB(TB/s) 이상의 메모리 대역폭이 지원되어 전례 없는 수준의 가속화를 보여줍니다.

이전 세대와 비교하여, HGX는 Tensor Float 32(TF32)와 FP64를 통한 2.5배의 HPC 속도 향상을 통해 최대 20배의 AI 속도 향상을 제공합니다. NVIDIA HGX는 경이로운 10페타플롭스를 제공하며 AI 및 HPC를 위한 세계에서 가장 강력한 가속 확장 서버 플랫폼을 구성합니다.

완전한 테스트를 거쳤고 간편하게 배포할 수 있는 HGX는 파트너 서버에 통합되어 보장된 성능을 제공합니다. HGX 플랫폼은 SXM GPU가 있는 4GPU 및 8GPU HGX 베이스보드로 사용할 수 있으며, 주류 서버에 최고의 컴퓨팅 성능을 제공하는 모듈식 배포 옵션을 위한 PCIe GPU로도 사용할 수 있습니다.

HGX Stack

NVIDIA HGX A100 8-GPU

NVIDIA HGX A100 with 8x A100 GPUs

NVIDIA HGX A100 4-GPU

NVIDIA HGX A100 with 4x A100 GPUs

딥러닝 성능

가장 큰 규모의 모델에서 최대 3배의 AI 트레이닝

DLRM 트레이닝

Up to 3X Higher AI Training on Largest Models

딥러닝 모델은 크기와 복잡성이 폭발적으로 증가하고 있어 대량의 메모리, 방대한 컴퓨팅 성능, 그리고 확장성을 위한 빠른 인터커넥트가 필요합니다. 고속 올 투 올 GPU 통신을 제공하는 NVIDIA NVSwitch™가 탑재된 HGX는 최첨단 AI 모델을 처리할 수 있습니다. A100 80GB GPU 사용 시 GPU 메모리가 두 배로 증가하므로 단일 HGX에서 최대 1.3TB의 메모리를 사용할 수 있습니다. 대규모 데이터 테이블이 있는 DLRM(Deep Learning Recommendation Model) 등의 가장 큰 모델에서 새로 등장하는 워크로드는 A100 40GB GPU 기반의 HGX보다 최대 3배 가속화됩니다.

머신 러닝 성능

빅데이터 분석 벤치마크에서 A100 40GB보다 2배 빠른 속도

2X Faster than A100 40GB on Big Data Analytics Benchmark

머신 러닝 모델은 중요한 인사이트를 얻기 위해 초대규모 데이터 세트를 로드하고 변환하여 처리해야 합니다. 최대 1.3TB의 통합 메모리와 NVSwitch와의 올 투 올 GPU 통신을 지원하는 A100 80GB GPU 기반의 HGX는 실행 가능한 인사이트를 신속하게 도출하기 위해 막대한 데이터 세트를 로드하고 계산하는 기능을 갖추었습니다.

A100 80GB는 빅데이터 분석 벤치마크에서 A100 40GB보다 2배 더 높은 처리량으로 인사이트를 제공하여 데이터세트 크기가 엄청 거대해진 요즘 워크로드에 적합합니다.

HPC 성능

HPC 애플리케이션은 매초 어마어마한 양의 데이터를 계산해야 합니다. 각 서버 노드의 컴퓨팅 밀도를 증가시키면 필요한 서버의 수가 대폭 감소되어 데이터센터 소모 비용, 전력 및 공간이 막대하게 절감되는 효과를 누릴 수 있습니다. 시뮬레이션의 경우 고차원 행렬 곱셈 연산은 수많은 주변 장치에서 데이터를 가져올 수 있는 프로세서가 필요하기에 NVIDIA NVLink로 연결된 GPU가 이상적입니다. HPC 애플리케이션도 A100에서 TF32를 활용하여 4년 만에 단정밀도의 고밀도 매트릭스 곱셈 연산에서 최대 11배 높은 처리량을 달성할 수 있습니다.

A100 80GB GPU 기반의 HGX는 재료 시뮬레이션인 Quantum Espresso에서 A100 40GB GPU에 2배의 처리량 증가를 제공하므로 인사이트를 더 빠르게 얻을 수 있습니다.

4년 동안 11배 향상된 HPC 성능

최고 HPC 앱

11X More HPC Performance in Four Years

HPC 애플리케이션의 최대 1.8배 높은 성능

Quantum Espresso​

Up to 1.8X Higher Performance for HPC Applications

NVIDIA HGX 사양

NVIDIA HGX는 40GB 또는 80GB의 GPU 메모리를 갖춘 4개 또는 8개의 A100 GPU가 있는 단일 베이스보드에서 사용할 수 있습니다. 4GPU 구성은 NVIDIA NVLink®와 완전히 인터커넥트되며, 8GPU 구성은 NVSwitch와 인터커넥트됩니다. 2개의 NVIDIA HGX A100 8-GPU 베이스보드가 NVSwitch 인터커넥트로 결합되어 강력한 16GPU 단일 노드를 구축할 수 있습니다.

HGX는 배포가 용이한 모듈식 옵션을 위한 PCIe 폼 팩터로도 사용할 수 있으며, 각각 40GB 또는 80GB의 GPU 메모리를 갖춘 주류 서버에 최고의 컴퓨팅 성능을 제공합니다.

이 하드웨어와 소프트웨어의 강력한 조합은 최고급 AI 슈퍼컴퓨팅 플랫폼의 토대가 됩니다.

  A100 PCIe 4GPU 8GPU 16GPU
GPUs 1x NVIDIA A100 PCIe HGX A100 4GPU HGX A100 8GPU 2x HGX A100 8GPU
폼 팩터 PCIe 4x NVIDIA A100 SXM 8x NVIDIA A100 SXM 16x NVIDIA A100 SXM
HPC 및 AI 컴퓨팅(FP64/TF32*/FP16*/INT8*) 19.5TF/312TF*/624TF*/1.2POPS* 78TF/1.25PF*/2.5PF*/5POPS* 156TF/2.5PF*/5PF*/10POPS* 312TF/5PF*/10PF*/20POPS*
메모리 GPU당 40또는 80GB 최대 320GB 최대 640GB 최대 1,280GB
NVLink 3세대 3세대 3세대 3세대
NVSwitch 해당 없음 해당 없음 2세대 2세대
NVSwitch GPU 간 대역폭 해당 없음 해당 없음 600GB/s 600GB/s
총 집계 대역폭 600GB/s 2.4TB/s 4.8TB/s 9.6TB/s

NVIDIA 네트워킹으로 HGX 가속화하기

HGX를 사용하면 NVIDIA 네트워킹을 포함하여 데이터 전송을 가속화 및 오프로드할 수 있으며 컴퓨팅 리소스를 완전히 활용하게 하는 것도 가능합니다. 스마트 어댑터와 스위치는 지연 시간을 줄이고, 효율성을 개선하며, 보안을 향상하고 데이터센터 자동화를 간소화하여 엔드 투 엔드 애플리케이션 성능을 가속화할 수 있습니다.

데이터센터는 컴퓨팅의 새로운 단위이며 HPC 네트워킹은 전체 데이터센터에서 애플리케이션 성능을 확장하는 데 중요한 역할을 합니다. NVIDIA InfiniBand는 소프트웨어 정의 네트워킹, 인-네트워크 컴퓨팅 가속화, RDMA(Remote Direct Memory Access), 그리고 가장 빠른 속도 및 피드를 통해 그 기반을 닦고 있습니다.

HGX-1 and HGX-2 Reference Architectures

Powered by NVIDIA GPUs and NVLINK

NVIDIA HGX-1 and HGX-2 are reference architectures that standardize the design of data centers accelerating AI and HPC. Built with NVIDIA SXM2 V100 boards, with NVIDIA NVLink and NVSwitch interconnect technologies, HGX reference architectures have a modular design that works seamlessly in hyperscale and hybrid data centers to deliver up to 2 petaFLOPS of compute power for a quick, simple path to AI and HPC.

Powered by NVIDIA GPUs and NVLINK

Specifications

8-GPU
HGX-1 
16-GPU
HGX-2 
GPUs 8x NVIDIA V100 16x NVIDIA V100
AI Compute 1 petaFLOPS (FP16) 2 petaFLOPS (FP16)
Memory 256 GB 512 GB
NVLink 2nd generation 2nd generation
NVSwitch N/A Yes
NVSwitch GPU-to-GPU Bandwidth N/A 300 GB/s
Total Aggregate Bandwidth 2.4 TB/s 4.8 TB/s

NVIDIA Ampere 아키텍처 내부

세부 기술 분석 내용을 읽어보고 NVIDIA Ampere 아키텍처의 새로운 기능과 NVIDIA A100 GPU에서 구현된 내용에 대해 알아보세요.