NVIDIA HGX A100

NVIDIA A100 Tensor Core GPU, NVLink 및 NVSwitch 기반

AI 및 HPC 분야에서 가장 강력한 가속 서버 플랫폼

머신 러닝의 대규모 데이터 세트, 딥 러닝의 폭발적으로 늘어나는 모델 크기, 그리고 고성능 컴퓨팅(HPC)의 복잡한 시뮬레이션에는 초고속 상호 연결성이 지원되는 멀티 GPU가 필요합니다. NVIDIA HGX™ A100은 NVIDIA A100 Tensor Core GPU를 새로운 NVIDIA® NVLink® 및 NVSwitch™ 고속 상호 연결성과 결합해 세계에서 가장 강력한 서버를 구성합니다. 모든 테스트를 거친, 배포가 간편한 베이스보드인 HGX A100은 파트너 서버에 통합되어 보장된 성능을 제공합니다.

독보적인 가속 컴퓨팅

3세대 Tensor Core의 성능을 활용하는 HGX A100은 Tensor Float 32(TF32)를 통해 AI에 즉각적으로 최대 10배의 가속을 제공하며 FP64를 통해 HPC에 2.5배의 가속을 제공합니다. NVIDIA HGX™ A100 4- GPU는 가장 까다로운 HPC 워크로드를 위해 거의 80테라플롭스의 FP64를 제공합니다. NVIDIA HGX™ A100 8- GPU는 5페타플롭스의 FP16 딥 러닝 컴퓨팅을 제공하며 16 GPU HGX A100은 경이로운 10페타플롭스를 제공하여 AI 및 HPC를 위한 세계에서 가장 강력한 가속 확장 서버 플랫폼을 구성합니다.

NVIDIA HGX A100 8-GPU

NVIDIA HGX A100 with 8x A100 GPUs

NVIDIA HGX A100 4-GPU

NVIDIA HGX A100 with 4x A100 GPUs

AI 트레이닝용 TF32를 통해 최대 6배 향상된 성능 제공

BERT 트레이닝

nvidia-a100-6x-tf32-ai-training-2c50-d

딥 러닝 성능

딥 러닝 모델은 크기와 복잡성 측면에서 폭발적으로 증가합니다. 이는 효율적인 확장성을 제공하기 위해서는 AI 모델에 대량 메모리, 방대한 컴퓨팅 성능, 고속 상호 연결 성능을 갖춘 시스템이 필요하다는 의미입니다. 고속의 올 투 올 GPU 통신을 제공하는 NVIDIA NVSwitch가 탑재된 HGX A100은 최첨단 AI 모델을 처리할 수 있는 성능을 제공합니다. 1개의 NVIDIA HGX™ A100 8- GPU가 수백 개의 CPU 구동 서버를 대체하여 데이터센터의 비용, 공간 및 에너지를 대폭 절감합니다. 

머신 러닝 성능

머신 러닝 모델은 인사이트를 얻기 위해 초대규모 데이터 세트를 로드하고 변환하여 처리해야 합니다. NVSwitch로 0.5TB가 넘는 통합 메모리와 올 투 올 GPU 통신을 지원하는 HGX A100은 실행 가능한 인사이트를 신속하게 도출하기 위해 막대한 데이터 세트에 대한 계산을 로드하고 수행할 수 있는 성능을 갖추었습니다.

머신 러닝 성능

4년 내 9배 더 높은 HPC 성능

최상위 HPC 어플리케이션들의 처리량

nvidia-a100-9x-hpc-2c50-d

HPC 성능

HPC 애플리케이션에는 초당 어마어마한 양의 계산을 수행할 수 있는 컴퓨팅 성능이 필요합니다. 각 서버 노드의 컴퓨팅 밀도를 증가시키면 필요한 서버의 수가 대폭 감소되어 데이터센터 소모 비용, 전력 및 공간 측면에서 막대한 절감 효과를 누릴 수 있습니다. HPC 시뮬레이션의 경우 고차원 행렬 곱셈 연산은 수많은 주변 장치에서 데이터를 가져올 수 있는 프로세서가 필요하기에 NVLink로 연결된 GPU가 이상적입니다. 하나의 NVIDIA HGX™ A100 4- GPU 서버는 동일한 과학적 애플리케이션을 실행하는 100개 이상의 CPU 기반 서버를 대체합니다.

가장 강력한 엔드 투 엔드 AI 및 HPC 데이터센터 플랫폼

완전한 NVIDIA 데이터센터 솔루션은 하드웨어, 네트워킹, 소프트웨어, 라이브러리 전반의 구성 요소를 NGC. 의 최적화된 AI 모델 및 애플리케이션과 통합합니다. 연구원은 데이터센터를 위한 가장 강력한 엔드 투 엔드 AI 및 HPC 플랫폼을 통해 실제 결과를 제공하고 솔루션을 규모에 맞게 프로덕션에 배포할 수 있습니다.

HGX A100 사양

HGX A100은 A100 GPU 4장 또는 8장 기반의 단일 베이스보드로 사용할 수 있습니다. 4GPU 구성은 NVLink와 완전히 상호 연결되며, 8GPU 구성은 NVSwitch와 상호 연결됩니다. 2개의 NVIDIA HGX™ A100 8- GPU 베이스보드가 NVSwitch 상호 연결로 결합되어 강력한 16GPU 단일 노드를 구축할 수도 있습니다.

4GPU 8GPU 16GPU
GPU 4개의 NVIDIA A100 8개의 NVIDIA A100 16개의 NVIDIA A100
HPC 와 AI Compute FP64/TF32*/FP16*/INT8* 78TF/1.25PF*/2.5PF*/5POPS* 156TF/2.5PF*/5PF*/10POPS* 312TF/5PF*/10PF*/20POPS*
메모리 160 GB 320 GB 640 GB
NVIDIA NVLink 3세대 3세대 3세대
NVIDIA NVSwitch 해당 없음 2세대 2세대
NVIDIA NVSwitch GPU-to-GPU 대역폭 해당 없음 600 GB/s 600 GB/s
총 집계 대역폭 2.4 TB/s 4.8 TB/s 9.6 TB/s

HGX-1 및 HGX-2 레퍼런스 아키텍처

NVIDIA GPU 및 NVLINK 기반

NVIDIA HGX-1 및 HGX-2는 AI 및 HPC를 가속화하는 데이터센터의 설계를 표준화한 레퍼런스 아키텍처입니다. NVIDIA SXM2 V100 보드와 NVIDIA NVLink 및 NVSwitch 상호 연결 기술로 구축된 HGX 레퍼런스 아키텍처는 하이퍼스케일 및 하이브리드 데이터센터에서 원활하게 작동하는 모듈식 설계가 적용되어 AI 및 HPC를 향한 빠르고 간편한 경로를 지원하도록 최대 2페타플롭스의 컴퓨팅 성능을 제공합니다.

NVIDIA GPU 및 NVLINK 기반

사양

8GPU
HGX-1 
16GPU
HGX-2 
GPU 8개의 NVIDIA V100 16개의 NVIDIA V100
AI 컴퓨팅 컴퓨팅 1페타플롭스(FP16) 2페타플롭스(FP16)
메모리 256 GB 512 GB
NVLink 2세대 2세대
NVSwitch 해당 없음
NVIDIA NVSwitch GPU-to-GPU 대역폭 해당 없음 300 GB/s
총 집계 대역폭 2.4 TB/s 4.8 TB/s

NVIDIA Ampere 아키텍처 세부 안내

새로운 NVIDIA Ampere 아키텍처와 그 기반의 NVIDIA A100 GPU에 대한 세부 기술 내용을 확인해 보시기 바랍니다.