NVIDIA HGX A100

NVIDIA A100 Tensor Core GPU, NVLink 및 NVSwitch 기반

AI 및 고성능 컴퓨팅(HPC) 분야에서 가장 강력한 가속화 서버 플랫폼

대규모 데이터 세트, 폭발적인 모델 크기 및 복잡한 시뮬레이션에는 매우 빠른 인터커넥트를 지원하는 다중 GPU가 필요합니다. NVIDIA HGX™ A100은 NVIDIA A100 Tensor 코어 GPU를 고속 상호 연결성과 결합하여 세계에서 가장 강력한 확장 서버를 구축합니다. A100 80GB GPU를 사용하는 단일 HGX A100에는 최대 1.3테라바이트(TB)의 GPU 메모리 및 초당 2TB 이상의 메모리 대역폭이 지원되므로 전례 없는 수준의 가속화를 보여줍니다. 모든 테스트를 거쳤고 간편하게 배포할 수 있는 베이스보드인 HGX A100은 파트너 서버에 통합되어 보장된 성능을 제공합니다.

독보적인 가속화 컴퓨팅

3세대 Tensor 코어의 성능을 활용하는 HGX A100은 Tensor Float 32(TF32)를 통해 AI를 즉각적으로 최대 20배 가속하며 FP64를 통해 HPC를 2.5배 가속합니다. NVIDIA HGX A100 4-GPU는 가장 까다로운 HPC 워크로드에 80테라플롭스의 FP64를 제공합니다. NVIDIA HGX A100 8-GPU는 FP16 딥 러닝 컴퓨팅의 5페타플롭스를 제공하며, 16 GPU HGX A100은 경이로운 10페타플롭스로 세계에서 가장 강력한 AI 및 HPC용 가속화 확장 서버 플랫폼을 구축합니다.

NVIDIA HGX A100 8-GPU

NVIDIA HGX A100 with 8x A100 GPUs

NVIDIA HGX A100 4-GPU

NVIDIA HGX A100 with 4x A100 GPUs

딥 러닝 성능

머신 러닝 성능

빅데이터 분석 벤치마크에서 CPU보다 최대 83배, A100 40GB보다 2배 더 빠름

빅데이터 분석 벤치마크에서 CPU보다 최대 83배, A100 40GB보다 2배 더 빠름

머신 러닝 모델은 중요한 인사이트를 얻기 위해 초대규모 데이터 세트를 로드하고 변환하여 처리해야 합니다. 최대 1.3TB의 통합 메모리와 NVSwitch와의 올 투 올 GPU 통신을 지원하는 A100 80GB GPU 기반의 HGX A100은 실행 가능한 인사이트를 신속하게 도출하기 위해 막대한 데이터 세트를 로드하고 계산하는 기능을 갖추었습니다.

A100 80GB는 빅데이터 분석 벤치마크에서 CPU에 비해 인사이트를 83배 더 빠르게, A100 40GB보다는 2배 더 빠르게 제공하여 데이터세트 크기가 엄청 거대해진 요즘 워크로드에 적합합니다.

HPC 성능

HPC 애플리케이션은 매초 어마어마한 양의 데이터를 계산해야 합니다. 각 서버 노드의 컴퓨팅 밀도를 증가시키면 필요한 서버의 수가 대폭 감소되어 데이터센터 소모 비용, 전력 및 공간이 막대하게 절감되는 효과를 누릴 수 있습니다. 시뮬레이션의 경우 고차원 행렬 곱셈 연산은 수많은 주변 장치에서 데이터를 가져올 수 있는 프로세서가 필요하기에 NVIDIA NVLink®로 연결된 GPU가 이상적입니다. HPC 애플리케이션도 A100에서 TF32를 활용하여 4년 만에 단정밀도의 고밀도 매트릭스 곱셈 연산에서 최대 10배 높은 처리량을 달성할 수 있습니다.

A100 80GB GPU 기반의 HGX A100은 재료 시뮬레이션인 Quantum Espresso에서 A100 40GB GPU에 비해 2배 더 높은 속도를 제공하므로 인사이트를 더 빠르게 얻을 수 있습니다.

4년 만에 HPC 성능 11배 향상

최고의 HPC 앱

4년 만에 HPC 성능 11배 향상

HPC 애플리케이션을 위한 최대 1.8배 향상된 성능

Quantum Espresso​

HPC 애플리케이션을 위한 최대 1.8배 향상된 성능

HGX A100 사양

HGX A100은 A100 GPU 4장 또는 8장 기반의 단일 베이스보드로 사용할 수 있습니다. 4GPU 구성은 NVLink와 완전히 상호 연결되며, 8GPU 구성은 NVSwitch와 상호 연결됩니다. 2개의 NVIDIA HGX™ A100 8- GPU 베이스보드가 NVSwitch 상호 연결로 결합되어 강력한 16GPU 단일 노드를 구축할 수도 있습니다.

4GPU 8GPU 16GPU
GPU 4개의 NVIDIA A100 8개의 NVIDIA A100 16개의 NVIDIA A100
HPC 와 AI Compute FP64/TF32*/FP16*/INT8* 78TF/1.25PF*/2.5PF*/5POPS* 156TF/2.5PF*/5PF*/10POPS* 312TF/5PF*/10PF*/20POPS*
메모리 최대 320GB 최대 640GB 최대 1,280GB
NVIDIA NVLink 3세대 3세대 3세대
NVIDIA NVSwitch 해당 없음 2세대 2세대
NVIDIA NVSwitch GPU-to-GPU 대역폭 해당 없음 600 GB/s 600 GB/s
총 집계 대역폭 2.4 TB/s 4.8 TB/s 9.6 TB/s

HGX-1 및 HGX-2 레퍼런스 아키텍처

NVIDIA GPU 및 NVLINK 기반

NVIDIA HGX-1 및 HGX-2는 AI 및 HPC를 가속화하는 데이터센터의 설계를 표준화한 레퍼런스 아키텍처입니다. NVIDIA SXM2 V100 보드와 NVIDIA NVLink 및 NVSwitch 상호 연결 기술로 구축된 HGX 레퍼런스 아키텍처는 하이퍼스케일 및 하이브리드 데이터센터에서 원활하게 작동하는 모듈식 설계가 적용되어 AI 및 HPC를 향한 빠르고 간편한 경로를 지원하도록 최대 2페타플롭스의 컴퓨팅 성능을 제공합니다.

NVIDIA GPU 및 NVLINK 기반

사양

8GPU
HGX-1 
16GPU
HGX-2 
GPU 8개의 NVIDIA V100 16개의 NVIDIA V100
AI 컴퓨팅 컴퓨팅 1페타플롭스(FP16) 2페타플롭스(FP16)
메모리 256 GB 512 GB
NVLink 2세대 2세대
NVSwitch 해당 없음
NVIDIA NVSwitch GPU-to-GPU 대역폭 해당 없음 300 GB/s
총 집계 대역폭 2.4 TB/s 4.8 TB/s

NVIDIA Ampere 아키텍처 내부

심층 기술 분석 내용을 읽어보고 NVIDIA Ampere 아키텍처의 새로운 기능과 NVIDIA A100 GPU에서 구현된 내용에 대해 알아보세요.