NVIDIA A100 Tensor 코어 GPU

모든 규모에서의 유례 없는 가속화

오늘 날 가장 중요한 작업 가속화

NVIDIA A100 Tensor 코어 GPU는 AI, 데이터 분석 및 HPC(high-performance computing) 를 위한 모든 규모의 유례 없는 가속화를 제공하여 세계에서 가장 까다로운 컴퓨팅 문제를 처리합니다. NVIDIA 데이터센터 플랫폼의 엔진에 해당하는 A100은 NVIDIA MIG(Multi-Instance GPU) 기술을 통해 수천 개 GPU로 효율적으로 확장하고 7개 GPU 인스턴스로 분할하여 모든 규모의 워크로드를 가속화합니다. 또한, 3세대 Tensor 코어는 다양한 워크로드를 위해 모든 정밀도를 가속화하여 인사이트 확보 시간과 시장 출시 시간을 단축합니다.

가장 강력한 엔드 투 엔드 AI 및 HPC 데이터센터 플랫폼

A100은 완전한 NVIDIA 데이터센터 솔루션의 일부로 하드웨어, 네트워킹, 소프트웨어, 라이브러리 및 NGC 의 최적화된 AI 모델과 애플리케이션에 걸쳐 빌딩 블록을 통합합니다. 연구자는 데이터센터를 위한 가장 강력한 엔드 투 엔드 AI 및 HPC 플랫폼을 통해 실제 결과를 제공하고 솔루션을 규모에 맞게 프로덕션에 배포할 수 있습니다.

 

Ampere 제작 비디오

AI 트레이닝용 TF32를 통해 최대 6배 향상된 성능 제공

BERT 트레이닝

AI 트레이닝용 TF32를 통해 최대 6배 향상된 성능 제공

딥 러닝 트레이닝

AI 모델은 정확한 기존 AI 및 딥 추천자 시스템과 같은 새로운 수준의 도전 과제를 수행함에 따라 복잡성이 폭발적으로 커지고 있습니다. 이러한 과제를 트레이닝하려면 엄청난 컴퓨팅 성능과 확장성이 필요합니다.

Tensor Float(TF32) 정밀도를 갖춘 NVIDIA A100의 3세대 Tensor CoresTensor 코어는 코드를 변경할 필요 없이 이전 세대보다 최대 10배 높은 성능과 함께 자동 혼합 정밀도로 추가 2배의 향상을 제공합니다. 3세대 NVIDIA® NVLink®, NVIDIA NVSwitch™, PCI Gen4, Mellanox InfiniBand 및 NVIDIA Magnum IO 소프트웨어 SDK와 결합하면 수천 개의 A100 GPU로 확장이 가능합니다. 이는 BERT와 같은 대규모 AI 모델을 A100 xx개의 클러스터에서 단 xx분 안에 트레이닝하여 유례 없는 성능과 확장성을 제공할 수 있다는 뜻입니다.

NVIDIA의 트레이닝 리더십은 AI 트레이닝에 대한 최초의 범산업 벤치마크인 MLPerf 0.6에서 입증되었습니다.

딥 러닝 인퍼런스

A100은 획기적인 신기능을 도입하여 추론 워크로드를 최적화합니다. FP32에서 FP16, INT8, INT4에 이르기까지 전 범위의 정밀도를 가속하여 유례없는 다용성을 제공합니다. Multi-Instance GPU(MIG) 기술을 사용하면 여러 네트워크가 단일한 A100 GPU에서 동시에 운용되어 컴퓨팅 리소스를 최적으로 활용할 수 있습니다. 또한 구조적 희소성 지원은 A100의 다른 추론 성능 이점 외에 최대 2배의 추가 성능을 제공합니다.

NVIDIA는 추론에 대한 최초의 범산업 벤치마크인 MLPerf Inference 0.5를 전반적으로 휩쓴 데서 입증되었듯이 이미 시장 최고의 추론 성능을 제공합니다. A100은 10배의 추가 성능을 제공하여 리더십을 한층 더 확장합니다.

AI 추론을 위한 MIG(Multi-Instance GPU)로 최대 7배 높은 성능 제공

BERT Large Inference

AI 추론을 위한 MIG(Multi-Instance GPU)로 최대 7배 높은 성능 제공

4년 내 9배 더 높은 HPC 성능

최상위 HPC 어플리케이션들의 처리량

4년 내 9배 더 높은 HPC 성능

고성능 컴퓨팅

차세대 검색을 활용하기 위해 과학자들은 신약 개발을 위한 복합분자, 잠재적인 새로운 에너지원을 위한 물리학, 극한의 기후 패턴을 더 효율적으로 예측하고 대비하기 위한 대기 데이터를 더 잘 이해하기 위해 시뮬레이션을 모색합니다.

A100은 배정밀도 Tensor 코어를 도입하여 HPC용 GPU에서 배정밀도 컴퓨팅을 도입한 후 최대 이정표를 제공합니다. 따라서 NVIDIA V100 Tensor 코어에서 실행하는 10시간 배정밀도 시뮬레이션을 A100에서 단 4시간으로 단축할 수 있습니다. HPC 애플리케이션도 A100의 Tensor 코어를 활용하여 단정밀도 매트릭스 곱셈 연산에 대해 최대 10배 높은 처리량을 달성할 수 있습니다.

고성능 데이터 분석

고객은 대규모 데이터세트를 분석, 시각화하고 통찰력으로 전환할 수 있어야 합니다. 하지만 스케일아웃 솔루션은 이러한 데이터세트가 여러 서버에 흩어져 있기 때문에 교착 상태에 빠지는 경우가 너무 많습니다.

A100를 사용하는 가속화 서버는 1.6TB/s의 메모리 대역폭과 3세대 NVLink 및 NVSwitch를 통한 확장성과 함께 필요한 컴퓨팅 성능을 제공하여 이러한 대규모 워크로드를 처리합니다. Mellanox InfiniBand, Magnum IO SDK, GPU 가속 Spark 3.0 및 GPU 가속 데이터 분석을 위한 소프트웨어 제품군인 NVIDIA RAPIDS 와 결합된 NVIDIA 데이터센터 플랫폼은 전례없는 수준의 성능과 효율성으로 이러한 막대한 워크로드를 고유하게 가속할 수 있습니다.

High-Performance Data Analytics

MIG(Multi-Instance GPU)를 통한 7배 높은 추론 처리량

BERT Large Inference

MIG(Multi-Instance GPU)를 통한 7배 높은 추론 처리량

엔터프라이즈 지원 활용률

MIG 를 탑재한 A100은 전례없는 수준으로 GPU 가속 인프라의 활용을 극대화합니다. MIG를 통해 A100 GPU가 7개나 되는 별개의 인스턴스로 안전하게 분할될 수 있어서 애플리케이션과 개발 프로젝트를 위해 여러 사용자가 GPU 가속화에 액세스할 수 있습니다. MIG는 NVIDIA Virtual Compute Server(vCS)와 함께 Kubernetes, 하이퍼바이저 기반 서버와 함께 작동됩니다. MIG를 통해 인프라 관리자는 모든 작업에 대해 서비스 품질(QoS)이 보장된 적절한 규모의 GPU를 제공하여 활용률을 최적화하고 모든 사용자에게 컴퓨팅 리소스의 도달 범위를 확대할 수 있습니다.

데이터 센터 GPU

HGX를 위한 NVIDIA A100

HGX를 위한 NVIDIA A100

모든 워크로드를 위한 궁극의 성능

PCIe를 위한 NVIDIA A100

PCIe를 위한 NVIDIA A100

모든 워크로드를 위한 높은 유연성

사양

  HGX용 NVIDIA A100 PCIe용 NVIDIA A100
최고 FP64 9.7 TF 9.7 TF
최고 FP64 Tensor 코어 19.5 TF 19.5 TF
최고 FP32 19.5 TF 19.5 TF
최고 TF32 Tensor 코어 156 TF | 312 TF* 156 TF | 312 TF*
최고 BFLOAT16 Tensor 코어 312 TF | 624 TF* 312 TF | 624 TF*
최고 FP16 Tensor 코어 312 TF | 624 TF* 312 TF | 624 TF*
최고 INT8 Tensor 코어 624 TOPS | 1,248 TOPS* 624 TOPS | 1,248 TOPS*
최고 INT4 Tensor 코어 1,248 TOPS | 2,496 TOPS* 1,248 TOPS | 2,496 TOPS*
GPU 메모리 40 GB 40 GB
GPU 메모리 대역폭 1,555 GB/s 1,555 GB/s
상호 연결 NVIDIA NVLink 600 GB/s**
PCIe Gen4 64 GB/s
NVIDIA NVLink 600 GB/s**
PCIe Gen4 64 GB/s
Multi-instance GPUs 최대 7MIGs @5GB의 다양한 인스턴스 사이즈 최대 7MIGs @5GB의 다양한 인스턴스 사이즈
폼 팩터 NVIDIA HGX A100의 4/8 SXM PCIe
최대 TDP 전력 400W 250W
상위 애플리케이션을 위한 성능 제공 100% 90%
 

NVIDIA Ampere 아키텍처 내부

이 웨비나에 참가해서 NVIDIA Ampere 아키텍처의 새로운 기능과 NVIDIA A100 GPU에서 구현된 내용에 대해 알아보세요.