NVIDIA Ampere 아키텍처

세계 최고의 성능과 탄력성을 갖춘 데이터센터의 핵심

현대 데이터센터의 AI 및 HPC의 핵심

과학자, 연구자, 엔지니어와 같은 이 시대의 다빈치와 아인슈타인들이 AI와 고성능 컴퓨팅(HPC)을 통해 세계에서 가장 중요한 과학, 산업, 빅 데이터 과제를 해결하려 노력하고 있습니다. 기업들과 전체 산업들은 온프레미스와 클라우드 모두에서 대규모 데이터 세트로부터 새로운 인사이트를 추출하기 위해 AI의 힘을 활용하려고 합니다. 탄력적 컴퓨팅의 시대에 맞게 설계된 NVIDIA Ampere 아키텍처는 이전 세대 대비 혁신적인 성능 도약으로 모든 규모에서 비교할 수 없는 가속화를 제공하여 혁신가들이 중요한 연구 과제를 수행할 수 있도록 지원합니다.

획기적인 혁신

540억 개의 트랜지스터로 제작된 NVIDIA Ampere는 현재까지 제작된 가장 큰 7나노미터(nm) 칩으로, 획기적인 5개의 핵심 혁신을 선보입니다. 

3세대 Tensor 코어

3세대 Tensor 코어

NVIDIA Volta™ 아키텍처에서 최초로 도입된 NVIDIA Tensor 코어 기술은 AI에 극적인 가속을 제공하여 트레이닝 시간을 몇 주에서 몇 시간으로 단축하고 추론을 막대하게 가속시킵니다. NVIDIA Ampere 아키텍처는 새로운 정밀도인 Tensor Float(TF32) 및 부동 소수점 정밀도 64(FP64)를 도입하여 이러한 혁신을 토대로 AI 채택을 단순화하고 Tensor 코어의 성능을 HPC로 확장합니다.

TF32는 FP32와 같이 작동하면서 코드 변경 없이 AI를 최대 20배까지 가속합니다. NVIDIA Automatic Mixed Precision를 사용하여 연구원은 코드를 단 한 줄만 추가해도 2배의 추가 성능을 얻을 수 있습니다. 그리고 NVIDIA A100 Tensor 코어 GPU의 Tensor 코어는 bfloat16, INT8 및 INT4 에 대한 지원으로 AI 트레이닝 및 추론 양쪽에 놀랍도록 다재다능한 가속기를 생성합니다. 또한, A100은 Tensor 코어의 성능을 HPC에 도입하여 완전하고 IEEE 인증을 받은 FP64 정밀도로 매트릭스 연산을 가능케 합니다.

MIG(Multi-Instance GPU)

모든 AI 및 HPC 애플리케이션은 가속의 이점을 얻을 수 있지만 모든 애플리케이션에 A100 GPU의 전체 성능이 필요한 것은 아닙니다. MIG를 통해 각 A100은 자체 고대역폭 메모리, 캐시, 컴퓨팅 코어로 하드웨어 수준에서 완전히 격리되고 보호되는 무려 7개의 GPU 인스턴스로 분할될 수 있습니다. 이제 개발자는 크고 작은 모든 응용 프로그램의 획기적인 가속화에 액세스할 수 있으며 보장된 서비스 품질을 경험할 수 있습니다. 그리고 IT 관리자는 최적화된 활용을 위한 적절한 규모의 GPU 가속화를 제공할 수 있으며 베어 메탈 및 가상화된 환경 전반에서 모든 사용자와 애플리케이션으로 액세스를 확장할 수 있습니다.

MIG(Multi-Instance GPU)

구조적 희소성

최신 AI 네트워크는 수백만 개, 일부 경우에는 수십억 개의 매개변수와 함께 점점 더 커지고 있습니다. 이 매개변수가 정확한 예측과 추론에 모두 필요한 것은 아니므로, 일부는 정확성을 감소시키지 않고 모델을 "희소"하게 만들기 위해 0으로 변환할 수 있습니다. A100의 Tensor 코어는 희소한 모델에 대해 최대 2배 높은 성능을 제공할 수 있습니다. 희소성 기능은 AI 추론에 더 수월하게 이점을 제공하지만, 모델 트레이닝의 성능을 개선하는 데 사용할 수도 있습니다. 

구조적 희소성
더 스마트하고 빠른 메모리

더 스마트하고 빠른 메모리

A100은 데이터센터에 방대한 양의 컴퓨팅을 제공합니다. 이러한 컴퓨팅 엔진의 활용도를 완전하게 유지하기 위해 업계 최고 수준인 1.5TB/s의 메모리 대역폭을 보유하여 이전 세대에 비해 67% 증가했습니다. 또한, A100은 40MB 레벨 2 캐시를 포함하여 이전 세대에 비해 7배 더 많은 온 칩 메모리를 보유함으로써 컴퓨팅 성능을 극대화합니다.

엣지의 컨버지드 가속

NVIDIA Ampere 아키텍처와 NVIDIA Mellanox의 ConnectX-6 Dx SmartNIC의 조합인 NVIDIA EGX™ A100는 전례없는 컴퓨팅 성능과 네트워크 가속 기능으로 엣지에서 생성되는 대규모 데이터를 처리합니다. Mellanox SmartNIC는 최대 200GB/s의 회선 속도로 해독하는 보안 오프로드를 포함하며 GPUDirect™는 AI 처리를 위해 비디오 프레임을 GPU 메모리로 직접 전송합니다. EGX A100 덕분에 비즈니스는 엣지에서 AI 배포를 더 안전하고 효율적으로 가속할 수 있습니다.

엣지의 컨버지드 가속

NVIDIA Ampere 아키텍처 내부

이 웨비나에 참가해서 NVIDIA Ampere 아키텍처의 새로운 기능과 NVIDIA A100 GPU에서 구현된 내용에 대해 들어보세요.