This site requires Javascript in order to view all its content. Please enable Javascript in order to access all the functionality of this web site. Here are the instructions how to enable JavaScript in your web browser.

NVIDIA A100 Tensor 코어 GPU

모든 규모에서의 유례 없는 가속화

이 시대의 가장 중요한 작업 가속화

NVIDIA A100 텐서 코어 GPU는 모든 규모에서 전례 없는 가속화를 제공하여 AI, 데이터 분석 및 HPC를 위한 세계 최고 성능의 탄력적인 데이터센터를 지원합니다. NVIDIA 암페어 아키텍처로 구동되는 A100은 NVIDIA 데이터센터 플랫폼의 엔진입니다. A100은 이전 세대보다 최대 20배 더 높은 성능을 제공하며, 7개의 GPU 인스턴스로 파티셔닝하여 변화하는 수요에 동적으로 대응할 수 있습니다. A100 80GB는 초당 2테라바이트(TB/s) 이상의 세계에서 가장 빠른 메모리 대역폭을 제공하여 가장 큰 모델과 데이터세트를 실행할 수 있습니다.

NVIDIA A100 데이터시트 읽기 (PDF 640 KB)

NVIDIA A100 80GB PCIe 제품 개요 읽기 (PDF 380 KB)

NVIDIA A100 40GB PCIe 제품 개요 읽기 (PDF 332 KB)

AI에 적합한 엔터프라이즈 지원 소프트웨어

NVIDIA EGX™ 플랫폼에는 인프라 전반에 걸쳐 컴퓨팅을 가속화하는 최적화된 소프트웨어가 포함되어 있습니다. NVIDIA AI Enterprise를 사용하는 기업은 NVIDIA-Certified Systems를 통해 VMware vSphere에서 실행되도록 NVIDIA가 최적화, 인증, 지원하는 AI 및 데이터 분석 소프트웨어의 엔드 투 엔드 클라우드 네이티브 제품군에 액세스할 수 있습니다. NVIDIA AI Enterprise에는 최신 하이브리드 클라우드에서 AI 워크로드의 빠른 배포, 관리 및 확장을 지원하는 NVIDIA의 주요 기반 기술이 포함되어 있습니다.

자세히 알아보기

가장 강력한 엔드 투 엔드 AI 및 HPC 데이터센터 플랫폼

A100은 완전한 NVIDIA 데이터센터 솔루션의 일부로, 다양한 하드웨어, 네트워킹, 소프트웨어, 라이브러리 및 NGC^™의 최적화된 AI 모델과 애플리케이션에 걸쳐 빌딩 블록을 통합합니다. 연구원은 데이터센터를 위한 가장 강력한 엔드 투 엔드 AI 및 HPC 플랫폼을 통해 실제 결과를 빠르게 제공하고 솔루션을 규모에 맞게 프로덕션에 배포할 수 있습니다.

Ampere 제작 비디오

영상 보기

딥러닝 훈련

가장 큰 규모의 모델에서 최대 3배의 AI 훈련

DLRM 훈련

DLRM on HugeCTR framework, precision = FP16 | NVIDIA A100 80GB batch size = 48 | NVIDIA A100 40GB batch size = 32 | NVIDIA V100 32GB batch size = 32.

딥 러닝 트레이닝

AI 모델은 대화형 AI와 같은 차세대 도전 과제를 풀어나가면서 그 복잡성 역시 폭발적으로 커지고 있습니다. 이러한 모델을 훈련시키려면 엄청난 컴퓨팅 성능과 확장성이 필요합니다.

Tensor Float(TF32)를 갖춘 NVIDIA A100의 Tensor 코어는 코드를 변경할 필요 없이 이전 세대 NVIDIA Volta보다 최대 20배 높은 성능과 더불어 자동 혼합 정밀도 및 FP16으로 성능이 추가로 2배나 향상됩니다. NVIDIA^® NVLink^®, NVIDIA NVSwitch^™, PCI Gen4, NVIDIA^® InfiniBand^®, NVIDIA Magnum IO^™ SDK와 함께 사용하면 수천 개의 A100 GPU로 확장할 수 있습니다.

2,048개의 A100 GPU를 통해 BERT와 같은 다양한 규모의 훈련 워크로드를 1분 안에 해결할 수 있으며, 해결까지 걸리는 시간은 세계 신기록을 자랑합니다.

딥러닝 추천 모델(DLRM)과 같은 방대한 데이터 테이블이 있는 최대형 모델의 경우, A100 80GB는 노드당 1.3TB의 통합 메모리를 달성하며 처리량이 A100 40GB보다 3배 더 많습니다.

MLPerf에서 보여준 NVIDIA의 리더십은 업계 전반의 AI 훈련 벤치마크에서 여러 가지 성능 기록을 세웠습니다.

훈련용 A100에 대해 자세히 알아보기

딥러닝 추론

A100은 획기적인 기능을 도입하여 추론 워크로드를 최적화합니다. FP32에서 INT4에 이르는 전체 범위의 정밀도를 가속화합니다. 멀티 인스턴스 GPU(MIG) 기술을 사용하면 여러 네트워크를 단일 A100에서 동시에 운용하여 컴퓨팅 리소스를 최적으로 활용할 수 있습니다. 또한 구조적 희소성 지원은 A100의 다른 추론 성능 이점 외에 최대 2배의 추가 성능을 제공합니다.

A100은 BERT와 같은 최첨단 대화형 AI 모델에서 추론 처리량을 CPU의 249배까지 가속합니다.

자동 음성 인식을 위한 RNN-T와 같이 배치 크기가 제약된 가장 복잡한 모델에서, A100 80GB의 개선된 메모리 용량은 각 MIG의 크기를 2배로 늘리며 A100 40GB보다 1.25배 더 높은 처리량을 제공합니다.

시장을 주도하는 NVIDIA의 성능은 MLPerf 추론에서 드러났습니다. A100은 20배의 추가 성능으로 시장 리더의 위상을 한층 더 높였습니다.

추론용 A100에 대해 자세히 알아보기

CPU보다 최대 249배 더 높은 AI
추론 성능

딥 러닝 인퍼런스

BERT 대규모 추론

더 많은 벤치마크 보기

BERT-Large Inference | CPU only: Xeon Gold 6240 @ 2.60 GHz, precision = FP32, batch size = 128 | V100: NVIDIA TensorRT^™ (TRT) 7.2, precision = INT8, batch size = 256 | A100 40GB and 80GB, batch size = 256, precision = INT8(희소성 포함).

A100 40GB보다 최대 1.25배 더 높은 AI
추론 성능

RNN-T 추론: 싱글 스트림

MLPerf 0.7 RNN-T measured with (1/7) MIG slices. Framework: TensorRT 7.2, dataset = LibriSpeech, precision = FP16.

고성능 컴퓨팅

차세대 발견을 위해 과학자들은 우리 주위의 세계를 더 잘 이해할 수 있도록 시뮬레이션을 보고 있습니다.

NVIDIA A100에는 GPU 도입 이래로 HPC 성능에서 가장 커다란 도약을 보여준 배정밀도 Tensor 코어가 도입되었습니다. 가장 빠른 GPU 메모리 80GB와 A100을 결합함으로써 연구원은 10시간 배정밀도 시뮬레이션을 4시간 미만으로 줄일 수 있습니다. HPC 애플리케이션도 TF32를 활용하여 단정밀도의 고밀도 매트릭스 곱셈 연산에서 최대 11배 높은 처리량을 달성할 수 있습니다.

가장 큰 데이터세트가 있는 HPC 애플리케이션의 경우, A100 80GB의 추가적인 메모리는 소재 시뮬레이션인 Quantum Espresso에서 처리량이 최대 2배로 증가하는 모습을 보여줍니다. 이렇게 방대한 메모리와 전례 없는 메모리 대역폭 덕분에 A100 80GB는 차세대 워크로드에 이상적인 플랫폼이 되었습니다.

HPC용 A100에 대해 자세히 알아보기

4년 동안 11배 향상된 HPC 성능

최고 HPC 앱

애플리케이션 가속의 기하 평균 대 P100: 벤치마크 애플리케이션: Amber[PME-Cellulose_NVE], Chroma[szscl21_24_128], GROMACS [ADH Dodec], MILC[Apex Medium], NAMD[stmv_nve_cuda], PyTorch(BERT Large Fine Tuner], Quantum Espresso[AUSURF112-jR]. Random Forest FP32[make_blobs(160000 x 64 : 10)], TensorFlow[ResNet-50], VASP 6[Si Huge] | GPU 노드(듀얼 소켓 CPU와 4개의 NVIDIA P100, V100 또는 A100 GPU 포함).

HPC 애플리케이션의 최대 1.8배 높은 성능

고성능 컴퓨팅

Quantum Espresso

더 많은 벤치마크 보기

Quantum Espresso measured using CNT10POR8 dataset, precision = FP64.

고성능 데이터 분석

빅데이터 분석 벤치마크에서 A100 40GB보다 2배 빠른 속도

빅데이터 분석 벤치마크 | 10TB 데이터세트의 분석 소매 쿼리 30개, ETL, ML, NLP | V100 32GB, RAPIDS/Dask | A100 40GB 및 A100 80GB, RAPIDS/Dask/BlazingSQL

데이터 사이언티스트는 대규모 데이터세트를 분석, 시각화하고 인사이트로 전환할 수 있어야 합니다. 하지만 스케일아웃 솔루션은 여러 서버에 흩어진 데이터세트 때문에 교착 상태에 빠지는 경우가 많습니다.

A100을 사용하는 가속화 서버는 방대한 메모리, 2TB/s를 넘는 메모리 대역폭, NVIDIA^® NVLink^®, NVSwitch^™를 통한 확장성과 함께 필요한 컴퓨팅 성능을 제공하여 이러한 워크로드를 처리합니다. InfiniBand와 NVIDIA Magnum IO^™ 그리고 GPU 가속 데이터 분석을 위한 Apache Spark용 RAPIDS Accelerator 등 오픈 소스 라이브러리의 RAPIDS^™ 제품군과 함께 NVIDIA 데이터센터 플랫폼은 이러한 대규모 워크로드를 전례 없는 수준의 성능과 효율성으로 가속화합니다.

A100 80GB는 빅데이터 분석 벤치마크에서 A100 40GB보다 2배 더 많은 인사이트를 기록했으므로, 데이터세트 크기가 엄청 거대해진 요즘 워크로드에 적합합니다.

데이터 분석에 대해 자세히 알아보기

엔터프라이즈 지원 활용률

멀티 인스턴스 GPU(MIG)를 갖춘 7배 더 높은 추론 처리량

BERT 대규모 추론

BERT 대규모 추론 | NVIDIA TensorRT^™ (TRT) 7.1 | NVIDIA T4 Tensor Core GPU: TRT 7.1, precision = INT8, batch size = 256 | V100: TRT 7.1, precision = FP16, batch size = 256 | A100 with 1 or 7 MIG instances of 1g.5gb: batch size = 94, precision = INT8(희소성 포함).

엔터프라이즈 지원 활용률

MIG를 사용하는 A100은 GPU 가속화 인프라의 활용률을 극대화합니다. A100 GPU는 MIG를 통해 7개나 되는 별개의 인스턴스로 안전하게 분할될 수 있어 여러 사용자가 GPU 가속화에 액세스할 수 있습니다. A100 40GB의 경우 각 MIG 인스턴스에 최대 5GB가 할당할 수 있으며, A100 80GB로 메모리 용량이 증가하면 그 크기가 10GB로 2배가 됩니다.

MIG는 Kubernetes, 컨테이너, 하이퍼바이저 기반 서버 가상화와 연동됩니다. MIG는 인프라 관리자가 모든 작업에 보장된 서비스 품질(QoS)로 알맞은 크기의 GPU를 제공하도록 지원하여 모든 사용자가 가속 컴퓨팅 리소스를 사용할 수 있게 합니다.

MIG에 대해 자세히 알아보기

시스템 최대한 활용하기

A100, NVIDIA Mellanox SmartnNIC와 DPU로 구성되고 성능, 기능성, 확장성, 보안 검증을 마친 NVIDIA 인증 시스템은 기업들이 NVIDIA NGC 카탈로그의 AI 워크로드를 위한 완전한 솔루션을 손쉽게 배포할 수 있도록 지원합니다.

자세히 알아보기

데이터센터 GPU

HGX용 NVIDIA A100

모든 워크로드에서 보여주는 최고의 성능.

PCIe용 NVIDIA A100

모든 워크로드에서 보여주는 최고의 다용성.

사양

	A100 80GB PCIe	A100 80GB SXM
FP64	9.7 TFLOPS
FP64 Tensor 코어	19.5 TFLOPS
FP32	19.5 TFLOPS
Tensor Float 32 (TF32)	156 TFLOPS \| 312 TFLOPS*
BFLOAT16 Tensor 코어	312 TFLOPS \| 624 TFLOPS*
FP16 Tensor 코어	312 TFLOPS \| 624 TFLOPS*
INT8 Tensor 코어	624 TOPS \| 1248 TOPS*
GPU 메모리	80GB HBM2e	80GB HBM2e
GPU 메모리 대역폭	1,935 GB/s	2,039 GB/s
최대 열 설계 전력(TDP)	300W	400W ***
멀티 인스턴스 GPU	최대 7개의 MIGs @ 10GB	최대 7개의 MIGs @ 10GB
폼 팩터	PCIe 이중 슬롯 공랭식 또는 단일 슬롯 수냉식	SXM
인터커넥트	NVIDIA^® NVLink^® 2개의 GPU를 위한 브리지: 600GB/s ** PCIe Gen4: 64 GB/s	NVLink: 600 GB/s PCIe Gen4: 64 GB/s
서버 옵션	1~8개의 GPU가 지원되는 파트너 및 NVIDIA-Certified Systems™	4개, 8개 또는 16개의 GPU가 지원되는 NVIDIA HGX™ A100 파트너 및 NVIDIA-Certified System 8개의 GPU가 지원되는 NVIDIA DGX™ A100

* 희소성 포함
** HGX A100 서버 보드를 통한 SXM4 GPU, 최대 2개의 GPU를 위한 NVLink 브리지를 통한 PCIe GPU
*** 400W TDP(표준 구성용) HGX A100-80GB 사용자 지정 열 솔루션(CTS) SKU는 최대 500개의 TDP를 지원할 수 있습니다

최신 MLPerf 벤치마크 데이터 보기

결과 보기

NVIDIA Ampere 아키텍처 내부

NVIDIA Ampere 아키텍처의 새로운 기능과 NVIDIA A100 GPU에서 구현된 내용에 대해 알아보세요.

백서 읽기

NVIDIA A100 Tensor 코어 GPU

이 시대의 가장 중요한 작업 가속화

AI에 적합한 엔터프라이즈 지원 소프트웨어

가장 강력한 엔드 투 엔드 AI 및 HPC 데이터센터 플랫폼

Ampere 제작 비디오

딥러닝 훈련

가장 큰 규모의 모델에서 최대 3배의 AI 훈련

딥 러닝 트레이닝

딥러닝 추론

CPU보다 최대 249배 더 높은 AI 추론 성능

딥 러닝 인퍼런스

A100 40GB보다 최대 1.25배 더 높은 AI 추론 성능

고성능 컴퓨팅

4년 동안 11배 향상된 HPC 성능

HPC 애플리케이션의 최대 1.8배 높은 성능

고성능 컴퓨팅

고성능 데이터 분석

빅데이터 분석 벤치마크에서 A100 40GB보다 2배 빠른 속도

엔터프라이즈 지원 활용률

멀티 인스턴스 GPU(MIG)를 갖춘 7배 더 높은 추론 처리량

엔터프라이즈 지원 활용률

시스템 최대한 활용하기

데이터센터 GPU

HGX용 NVIDIA A100

PCIe용 NVIDIA A100

사양

NVIDIA Ampere 아키텍처 내부

CPU보다 최대 249배 더 높은 AI
추론 성능

A100 40GB보다 최대 1.25배 더 높은 AI
추론 성능